春节将至,国产大模型再次迎来上新热潮。
2月13日,MiniMax正式上线新一代文本模型MiniMax M2.5,再次引爆春节前的AI“冲刺赛”,加入这场被业界称为“AI诸神之战”的竞争。
近期,包括智谱、字节跳动、阿里巴巴等多家科技大厂已经推出各自的“王牌产品”,2月12日,智谱正式上线并开源其新一代旗舰模型GLM-5,这个新模型正是此前在全球模型服务平台OpenRouter登顶热度榜首、引发圈内疯狂猜测的神秘模型“Pony Alpha”。
此前字节跳动旗下AI视频生成模型Seedance2.0更是凭借多模态输入、文本/图片生成电影级视频等出色能力引爆网络,吸引全球关注。马斯克转发评论Seedance 2.0相关推文,并表示:模型发展速度太快(It's happening fast),导演贾樟柯在社交平台发文表示:“Seedance 2.0确实厉害,我准备用它做个短片。”
Seedance2.0
2月13日,MiniMax开盘报642港元,涨超9%,年内涨幅超56%;智谱报492港元,涨超20%,年内涨幅达90%。
MiniMax:输出速度达到主流模型两倍
澎湃新闻记者了解到,在编程能力方面,M2.5在权威榜单SWE-Bench Verified得分80.2%、Multi-SWE-Bench得分51.3%,较上一代显著提升;在Multi-SWE-Bench等多语言复杂环境中超越Opus 4.6,达到行业最好的水平。更重要的是,模型展现出“原生Spec能力”——在编码前主动拆解架构与功能规划,更接近真实架构师的工作模式。
工具调用和搜索能力方面,模型能够自动处理复杂任务,在BrowseComp、Wide Search等多项Agent任务中以更低的轮次消耗取得更优的效果,相较于上一代模型表现提升20%,达到行业顶尖水平。
性能之外,M2.5另一核心亮点在于推理速度与成本控制。
M2.5-lightning版本支持100 TPS以上输出速度,是主流模型的2倍左右;输入价格约0.3美元/百万Token,输出约2.4美元/百万Token。按每秒输出100 Token计算,连续运行一小时成本约1美元;若按50 Token计算,成本约0.3美元。这意味着1万美元理论上可支持4个Agent连续工作一年。
M2.5已于2月12日在MiniMax Agent上线,并于13日全球开源支持本地化部署。不到一天,来自全世界的用户已经在MiniMax Agent上构建了1万多个专家,且仍在快速增长。
MiniMax方面向记者表示,希望在持续提升模型能力的同时,构建一个可持续扩展的生态——当模型能力、泛化性和成本都不再是瓶颈,Agent渗透到工作和生活的各个角落,从编程、办公到创作、娱乐,将大幅促进应用进一步发展。
国产大模型节前集体上新
2月12日,智谱AI正式上线并开源其新一代旗舰模型GLM-5。作为“大模型第一股”,智谱迅速引爆了资本市场,2月12日收盘,智谱股价大涨28.68%,创下历史新高,总市值达到1792亿港元,市值较前一日增加400亿港元。
据智谱方面表示,GLM-5 全新基座从355B(激活 32B)扩展至744B(激活 40B),预训练数据从23T提升至28.5T,更大规模的预训练算力显著提升了模型的通用智能水平。
在编程能力上实现对齐Claude Opus 4.5,在业内公认的主流基准测试中取得开源模型SOTA。在SWE-bench-Verified和Terminal Bench 2.0中分别获得77.8和56.2的开源模型最高分数,性能超过Gemini 3 Pro。
智谱方面向澎湃新闻记者表示,今年大模型将会从“会写”走到“会做事”,尤其是端到端完成大型任务。GLM-5相当于“系统架构师”,将为AI行业的发展提供更大的想象空间。
此外,记者了解到,2月14日,火山引擎将正式发布豆包大模型2.0。此前,豆包视频生成模型Seedance 2.0、豆包图像创作模型Seedream 5.0 Lite已分别开启内测。豆包大模型2.0是字节跳动最新推出的多模态Agent模型,也是豆包大模型自2024年5月正式发布以来首次大版本的跨代升级,在多模态感知、高精度文字提取、图表理解、空间理解、运动理解、视觉知识和推理、长视频理解等方面表现出色。
此外,模型能更好支持对技能(Skills)的理解和应用,Function Call、多轮指令遵循、搜索和工具调用能力显著增强,格式输出更稳定,支持灵活的上下文管理,更好地支持企业级复杂、长程任务,在数据分析和客服Agent等企业场景中表现出色。
热门跟贴