虽然Yi系列大模型出道时间相对较晚,但从效果上来看,绝对称得上是后发制人。
一出手即问鼎多项全球第一:
- Hugging Face英文测试榜单位居第一,以34B的大小碾压Llama-2 70B和Falcon-180B等一众大尺寸大模型;
- 唯一成功登顶HuggingFace的国产大模型;
- C-Eval中文能力排行榜位居第一,超越了全球所有开源模型;
- MMLU、BBH等八大综合能力表现全部胜出;
- 拿下全球最长上下文窗口宝座,达到200K,可直接处理40万汉字超长文本输入。
值得注意的是,零一万物及其大模型并非是一蹴而就,而是酝酿了足足半年有余。
由此不免让人产生诸多疑问:
例如为什么要憋半年之久的大招,选择在临近岁末之际出手?
再如是如何做到一面世即能拿下如此之多的第一?
带着这些问题,我们与零一万物做了独家交流,现在就来一一揭秘。
击败千亿参数大模型
具体来看,零一万物最新发布开源的Yi系列大模型主要有两大亮点:
- “以小博大”击败千亿参数模型
- 全球最长上下文窗口支持40万字
在Hugging Face英文测试公开单 Pretrained 预训练开源模型排名中,Yi-34B以70.72分数位列全球第一,超过了LLaMA-70B和Falcon-180B。
要知道,Yi-34B的参数量仅为后两者的1/2、1/5。不仅“以小博大”问鼎榜单,而且实现了跨数量级的反超,以百亿规模击败千亿级大模型。
其中在MMLU(大规模多任务语言理解)、TruthfulQA(真实性基准)两项指标中,Yi-34B都大幅超越其他大模型。
△Hugging Face Open LLM Leaderboard (pretrained) 大模型排行榜,Yi-34B高居榜首(2023年11月5日)
聚焦到中文能力方面,Yi-34B在C-Eval中文能力能力排行榜上超越所有开源模型。
同样开源的Yi-6B也超过了同规模所有开源模型。
△C-Eval 排行榜:公开访问的模型,Yi-34B 全球第一(2023年11月5日)
在CMMLU、E-Eval、Gaokao三个主要中文指标上,明显领先于GPT-4,彰显强大的中文优势,对咱们更知根知底。
在BooIQ、OBQA两个问答指标上,和GPT-4水平相当。
另外,在大模型最关键评测指标MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)、BBH等反映模型综合能力的评测集上,Yi-34B在通用能力、知识推理、阅读理解等多项指标评比中全面超越,与Hugging Face评测高度一致。
热门跟贴