始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。wisemodel社区上升级了,两步完成模型部署和,并。

打开网易新闻 查看精彩图片

在 AI 领域中,代码生成和编辑工具一直是开发者们关注的焦点。 9 月 5 日,零一万物开源了 Yi-Coder 系列模型,它作为 Yi 系列模型家族中的“编程小能手”,展现了卓越的代码生成能力。 这是继今年 5 月 13 日开源 Yi-1.5 系列模型之后,零一万物在开源方向上的又一重要成果。

打开网易新闻 查看精彩图片

至此,Yi 开源系列模型家族现已包含 Yi、Yi-1.5、Yi-VL、Yi-Coder 等多款模型, 我们鼓励大家探索大语言模型的更多可能,将 Yi 系列模型以及wisemodel社区上的各类开源模型可以集成到各自的项目中,亲身体验其强大的性能。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

Yi-Coder 模型Demo展示

01

模型概述

Yi-Coder 系列模型专为编码任务而生,提供 1.5B 和 9B 两种参数。其中,Yi-Coder-9B 的表现优于其他 10B 参数以下的模型,如 CodeQwen1.5 7B 和 CodeGeex4 9B,甚至能够与 DeepSeek-Coder 33B 相媲美。

▪ 小参数,强性能:尽管 Yi-Coder 的参数量相对较小,但它在各种任务,包括代码生成、代码理解、代码调试和代码补全中的表现十分出色。10B 以下的大小也让它易于使用,方便端侧部署。

▪ 128K 长序列建模:Yi-Coder 能够处理长达 128K tokens 的上下文内容,有效捕捉长期依赖关系,适用于复杂项目级代码的理解和生成。

▪ 强大的代码生成能力:支持 52 种主要编程语言,Yi-Coder 在代码生成和跨文件代码补全方面表现优异。

02

模型表现

▪ Yi-Coder 在代码生成基准测试中名列前茅

LiveCodeBench 是一个旨在为大语言模型提供全面公平的评测平台。它实时收集来自 LeetCode、AtCoder、CodeForces 等竞赛平台的新问题,构成了一个动态而全面的基准测试库。

为确保没有数据污染,由于Yi-Coder的训练数据截止时间是 2023 年底,我们选取了 2024 年 1 月到 9 月的题目进行测试。在下图榜单中,Yi-Coder-9B-Chat 的通过率达到了 23.4%,在 10B 以下参数量的模型中是唯一一个通过率超过 20% 的模型。这一成绩超过了 :

DeepSeek-Coder-33B-Instruct 的 22.3%

CodeGeex4-All-9B 的 17.8%

CodeLLama-34B-Instruct 的 13.3%

CodeQwen1.5-7B-Chat 的 12%

打开网易新闻 查看精彩图片

除了竞赛级别的高难度评测,我们还选取了Zero-shot HumanEval、3-shot MBPP 和 CRUXEval-O 等业内流行基准测试,用于评估模型的基础代码生成和推理能力。

下图评测结果表明,Yi-Coder 在这三个评估任务之下都取得了优异的性能。具体来说,Yi-Coder-9B-Chat 在 HumanEval 和 MBPP 的通过率分别达到了 85.4% 和 73.8%,超过其他 Coder 模型。此外,Yi-Coder 9B 在 CRUXEval-O 的准确率在开源 Coder 模型中首次达到了 50% 以上。

打开网易新闻 查看精彩图片

▪ 代码编辑和补全能力强劲

CodeEditorBench 涵盖了四个关键领域:代码调试、代码翻译、代码优化和代码需求转换。结果表明,在开源代码大语言模型中,Yi-Coder-9B-Chat 取得了优异的成绩,在 Primary 和 Plus 两个子集中始终优于 DeepSeek-Coder-33B-Instruct 和 CodeQwen1.5-7B-Chat。

打开网易新闻 查看精彩图片

代码补全方面,Yi-Coder 也表现出色。与代码生成不同,跨文件代码补全要求模型访问并理解跨多个文件的资源库,这些文件之间存在大量的跨文件依赖关系。本次评估采用了 CrossCodeEval 基准,在两种不同的情况下进行:检索相关上下文和不检索相关上下文。

下图结果表明,Yi-Coder 在有检索和无检索的情况下都优于其他同等规模的模型。这一成功验证了在具有较长上下文长度的软件仓库级代码语料库上进行训练能够使 Yi-Coder 有效捕捉长期依赖关系,从而提高其性能。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

▪ 长序列建模表现优秀

我们效仿文本领域流行的长序列评测,合成了一个 128K 长序列的“Needle in the code” 评估任务,长度双倍于 CodeQwen1.5 所构建的 64K 长序列评测。它通过在长代码库中随机插入一个简单的自定义函数,测试模型能否在代码库最后重复这个函数。该测试旨在检测模型LLM是否能从长文本中提取出这些关键信息,从而反映 LLM 其对长文本的理解基础能力。

下图全绿结果表示,Yi-Coder-9B 在 128K 长度范围内完美完成了这一任务。

打开网易新闻 查看精彩图片

▪ 数学推理能力毫不逊色

DeepSeek Coder 先前的研究表明,模型强大的编码能力可以增强其数学推理能力。Yi-Coder 在七个数学题数据集上评估了代码辅助(PAL: Program-aided Language Models)解题能力,在每个数据集中,模型都要通过生成Python代码然后执行代码得出最后的答案。这七个任务的平均准确率得分如下图所示,Yi-Coder 9B的准确率达到 70.3%,超过了 DeepSeek-Coder 33B 的 65.8%。

打开网易新闻 查看精彩图片

03

模型部署在线体验和API服务

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

从“应用”模块的“新建体验”或“新建API服务”按钮,或者在模型详情页面的“在线部署”按钮下在“部署在线体验”或“部署API服务”按钮,可以开始模型在线部署的流程。

打开网易新闻 查看精彩图片

在模型部署的弹窗里选择Yi-Coder-9B-Chat的模型镜像,然后根据指引填写相应的各项信息,然后直接“下一步”。

打开网易新闻 查看精彩图片

第二步是确认计费方式,如果按量计费,可以选择自动停止时间,未选自动停止时间的需要前往“用户中心-我的资源-在线体验/API服务”停止相应的服务。也可以选择包周或包月等计费方式,大家可以根据自身的需求。如果账户余额不足时需要先进行充值,也可以直接前往“用户中心-财务信息-财务总览”进行充值。直接点击“提交订单”按钮之后,后台开始进行模型的部署工作,状态变成“启动中”,大概1分钟左右模型就部署好可以进行正常工作了。下面我们就一起来试试吧:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

上面试了两个例子,模型好像会更倾向于用英文回复。上面部署的API服务,大家可以看到右侧是API调用的方式,支持openAI 的API格式。欢迎大家到wisemodel在线部署试试。平台现在已经支持超过80 个大模型的直接在线部署和使用,不仅可以直接有wisemodel平台上在线体验,wisemodel也可以通过API服务的方式提供模型的托管,欢迎大家合作。

----- END -----

wisemodel相关

系统升级

系列模型:

打开网易新闻 查看精彩图片

关于wisemodel更多

打开网易新闻 查看精彩图片

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看