从 “陪跑” 到 “领跑”
豆包如何实现技术跃迁?
高考作为大模型绝佳测试场景,其价值无可替代:一方面,题目设计具有极强的系统性和全面性,可以全面检验模型的基础知识储备与跨领域处理能力;另一方面,高考题目每年更新,也能直观反映模型面对新问题时的泛化能力。
山东是高考大省,此次字节跳动Seed团队此次以2025年山东高考真题为标尺,含金量不言而喻。
一同参考的考生还有业界主流的推理模型Gemini2.5-Pro-0605、DeepSeek-R1-0528、Claude-Sonnet-4、OpenAI-o3-high-0416。最终排名显示,Seed1.6-Thinking 于理科方面排名第二,达到648分,其中物理表现比较突出;在文科上则排名第一,达683分,地理和历史优势较大,文科和理科分数均超出大部分 985 高校往年录取分数线。
在所有科目试卷中,图像类问题分数占比超过30%,最终成绩也表明,物理、化学、地理等学科的图像题是检验多模态能力的分水岭。具体来看,在语、数、外等基础学科中,上述模型大多表现较好。拉开差距的是化学和生物等读图题,由于题目不是官方发布,图比较模糊,因此各模型失分较多。
大模型“高考”通关
重塑AI竞争格局
根据中研普华产业研究院的数据,2024年全球多模态AI市场规模达到24亿美元,年均复合增长率超过28%。预计到2025年,全球多模态大模型市场规模将达到1280亿美元。
目前在产业端,多模态正逐步推开,从智能家居到虚拟现实,从自动驾驶汽车到语音助手,多模态技术正在不断拓展各个领域的应用。但要实现规模化应用,模型成本下降和多模态能力的提升是最重要的主线。
在多模态升级方面,豆包大模型Seed1.6已经展现了强大的技术潜力和实战能力,高考这一复杂测试场景下的“不偏科”能力证明模型不仅“通用”,而且“懂行”。与之相对应的的是,火山引擎数据显示,豆包大模型已接入多所高校的智能教辅系统,提供教学、管理、科研、服务多维度服务体系,这种应用潜力,驱动着人工智能大模型重构教学体系的核心架构。
热门跟贴