字节跳动Seed团队在Hugging Face和GitHub发布Seed-OSS系列模型,采用Apache-2.0开源协议,支持学术研究与商业部署。该模型原生支持512K上下文窗口,为预训练阶段构建,长度是主流开源模型的4倍,可处理法律文档审查等海量信息场景。
Seed-OSS引入“思考预算”机制,用户可通过设定token数量控制模型推理深度,建议使用512整数倍token预算。模型为360亿参数稠密模型,含64层、5120隐藏层维度、155K词汇表,采用RoPE位置编码、GQA注意力机制等技术。
Seed-OSS在多项基准测试中表现突出,BBH推理基准得分87.7刷新开源纪录,MMLU-Pro达65.1分,TriviaQA 82.1分,GSM8K 90.8分,MATH 81.7分,HumanEval 76.8分,MBPP 80.6分,指令微调版本AIME24数学竞赛题得分91.7分。
本文源自:金融界
作者:电报君
热门跟贴