LiveBench 榜单比拼,只有一家中国大模型进入前十。
作者丨王 悦
编辑丨陈彩娴
在大模型技术圈里,有一个获得不少认同的说法:阶跃星辰的底层基础模型能力很强,甚至是几家大模型公司中数一数二的。但其实,拥有这种看法的大多是足够了解国内大模型能力现状的人,对于圈子之外的人,无法直观感受到这种潜移默化的底层硬实力。
然而,在被誉为「世界上第一个不可玩弄的 LLM 基准测试」的 LiveBench 榜单中,阶跃星辰给了行业一次强有力的冲击。
国际权威榜单 LiveBench 官网发布最新的榜单成绩显示,阶跃星辰自研的万亿参数语言大模型 Step-2 在榜单中位列国产基座大模型第一,成绩逼近 OpenAI 的 o1-mini-2024-09-12,超越GPT-4o-2024-08-06 、gemini-1.5-pro-002等国际主流模型,目前排在阶跃前面的只有OpenAI 和 Anthropic。
榜单链接:https://livebench.ai/
本次榜单里,阶跃是唯一进入榜单前十名的中国大语言模型,位列全球第五。同样上榜的大模型公司还有通义千问和深度求索,均没有冲进前十,分别位列第十三和第二十三名。
在榜单中的多项测评标准中,Step-2 在 IF Average(指令跟随)的表现上以 86.57 的分数排在第一,超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。
从 2024年3月发布国内首个由创业公司研发的万亿参数语言大模型预览版 Step-2 ,到在中文大模型基准测评机构SuperCLUE 上登顶国内多模态大模型榜首,到本次在LiveBench 上获得中国大模型第一,可以说,阶跃星辰正在全力提升自身底层实力并且成效显著。
基于 Step-2 万亿参数大模型和 Step-1.5V 多模态模型能力,其 C 端产品跃问也随之迭代,推出的通过图像交互“即拍即问”功能“拍照问”,解决了文字和语音交互中难以准确描述的痛点,获得用户好评。目前,Step-2 已经接入跃问 APP 和网页端(https://yuewen.cn),开发者可以在阶跃星辰开放平台,通过 API 接入使用 Step-2。
1
LiveBench测出的第一:含金量仍在上升
Step-2 取得 LiveBench 国产大模型第一名——之所以这件事能证明阶跃星辰的模型实力,是因为 LiveBench 本身具有含金量,不同于针对特定数据集进行训练从而拿高分的定向考试。
LiveBench 是由 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构联合推出,提出了一种创新的基准测试方法,其中包含6大类18项任务,一向以权威性、客观公正、全面评估而获得业界认可。甚至把 “A Challenging, Contamination-Free LLM Benchmark” 放在官网最醒目的位置。
并且为了避免大模型“作弊”,LiveBench 每月发布新问题,并根据最近发布的数据集、arXiv论文、新闻文章和 IMDb 电影简介设计问题,以限制潜在的数据污染。LiveBench 也已评估全面著称,可以从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估,还能设计中立的评价体系以避免人类评价者受格式偏好和文风影响。
根据过往的榜单情况来看,上榜者多为国外的科技巨头,极少有国内的大模型能冲到排行榜前十,甚至大多难以上榜。2024 年到目前为止的每个月排名中,只有通义千问的开源大模型 Qwen2-72B 在 6月14 日发布的 LiveBench 的测评中上榜,排名位列第八。
令人惊艳的是, Step-2 的 IF Average(指令跟随得分的平均值)指标碾压所有在榜模型。指令跟随衡量的是模型对语言生成细节的控制力,通常模型满足限定要求,诸如必须遵守一项或多项指令,例如字数限制或在回答中纳入特定元素。
指令跟随在文字创作上的表现会更加显著,在生成高质量、有创意的文字内容的同时,Step-2模型能够根据用户的指令对文本进行精确地调整和优化,比如在创作古诗词时,对字数、格律、押韵、意境都可以做到精准把握。
例如,在跃问中输入:写一首主题为“爱而不得”的七言律诗,表达出相爱的人因为不能相互理解而走散,充满对爱情无力、灰心的意境,得出的回答是:
这一段 prompt 明确要求输出中国的古诗体、有规定字数、需要理解其背后的意境,输出的结果符合要求,并且能主动做到押韵。
不仅文学创作能考察指令跟随能力,是否能够一一应对一个复杂 prompt 的多项细节指令,也是衡量指令跟随能力的较好方式。
比如,向跃问提问:设计一个为期一周的社区环保活动计划。活动计划应包括每天的具体活动安排;确定至少三个不同的环保主题,如减少塑料使用、节约能源和垃圾分类;为每个主题设计一个互动环节,鼓励社区居民参与,列出所需物资清单,并估算活动预算;描述如何通过社交媒体和社区公告板宣传这次活动;考虑到不同年龄层的居民,设计适合儿童、成人和老年人的活动;确保活动计划中包含安全措施和应对突发情况的预案。
得到的回答是:
在这一大问题中,包含了八个子问题,跃问一个都没有漏掉,足见其较强的指令跟随程度。
出众的指令跟随能力背后,必然是模型更强大的理解和推理能力在支撑。Step-2 具备出色的理解能力,能够从上下文中推断出用户需求,精准捕捉用户在模糊指令中的真实意图,提供更准确、个性化的响应,把模糊指令读得更清晰。
除此之外,数据量也是 Step-2 能力强悍的关键因素。其知识覆盖范围和深度都取得显著突破,不仅能够处理常见领域知识,还能深入理解和回答在特定领域或边缘分布中的复杂问题。
2
阶跃不止于万亿参数大模型
开发出万亿参数模型,是各家大模型发展之路的一个里程碑。一年左右的时间内,号称要发布万亿参数大模型的公司不下五家,但最终能真正发出来的却寥寥无几。
今年 3 月,阶跃星辰发布了 Step-2 语言大模型预览版,这是国内首个由创业公司发布的万亿参数模型,很多成立时间更早、融资体量更大的公司都没有成功发布。
Step-2 万亿参数语言大模型采用 MoE 架构。可以说, MoE 架构是万亿参数模型现阶段不可绕开的路,但阶跃星辰在开发 Step-2 MoE 架构时候没有采用相对成熟的 upcycle(向上复用)方案,走出对算力的需求低、训练效率高的舒适区,转而完全自主研发从头开始训练。
通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计, Step-2 中的每个“专家模型”都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。基于创新算法架构的 Step-2 万亿参数大模型,在数学、逻辑、编程、知识、创作、多轮对话体感全面逼近 GPT-4。
在 Step-2 训练过程中,阶跃星辰系统团队更是突破了 6D 并行、极致显存管理、完全自动化运维等关键技术,具备领先的系统能力以支持高效训练。
然而,阶跃的「星辰大海」远不止于万亿参数的大语言模型。
Step-1.5V 是阶跃星辰 Step 系列里的多模态大模型,其视频理解能力不仅能够准确识别视频中的物体、人物和环境,还能够理解视频的整体氛围和人物情绪,因此被应用于各种视频分析和处理任务,如视频内容理解、视频问答等。
除此之外,Step-1.5V 也具有超强感知能力。通过创新的图文混排训练方法,Step-1.5V 能够准确理解各类图像、图表、复杂图文混排的长上下文内容及其逻辑关系,也能够精准感知图像中物体的复杂空间关系,甚至能够处理高分辨率和极限长宽比的图像。
Step 系列中包括 Step-1X 图像生成大模型。和大语言模型一脉相承,Step-1X 也具备了更强的深度语义对齐能力和细节生成能力与创新力。通过 Step-1V 大模型对高标准训练图像实施精细化标签处理,可获得高精度图文配对数据,极大提升了语义匹配的准确度与深度,即使面对包含多个对象、详细属性、复杂逻辑关系的文本指令时,也能确保生成图像与描述相符和。
Step-1X 生成的图像不仅具备丰富的细节和逼真的质感,还针对中国文化的深度优化,使得该模型在处理富含中国元素的内容时展现出独特优势,无论是传统美学还是现代风尚,更能满足国人独特的审美需求。
有了扎实的底层模型后,阶跃星辰的产品开发应更加有底气。在定位为智能助手的跃问中,加入了智能视觉搜索功能「拍照问」。「拍照问」能够解决难以用语音和文字准确描述的问题,比如,拍一张今日晚餐,跃问就可以计算卡路里摄入;随手拍各种物体图片,跃问就能反馈正确的发音、例句。
基础模型加持下,阶跃星辰的产品能力的想象力还会进一步延展。
3
阶跃星辰创始人姜大昕曾表示,他期待的 AI 下一个里程碑有二:一是强化学习模型泛化能力的提升;二是视觉领域理解和生成的一体化。
而今看来,阶跃星辰距离里程碑的路程就在不远处。登榜LiveBench 的首个国内万亿参数大模型、全链路自研 DiT 架构的Step-1X图像生成大模型、具备超过行业平均理解能力的Step-1.5V多模态模型,都是脚下一步步朝上迈的台阶。
以通用大模型为目标,这家公司正在以阶跃之力,奔赴星辰大海。
更多内容,点击下方关注:
热门跟贴