2025大模型的新惊喜：昆仑万维全面上线天工大模型4.0｜甲子光年|人工智能|周亚辉|大模型|天工大|昆仑万维|知名企业|算法

Skywork o1与4o已正式上线web与App端。

作者｜栗子‍‍‍‍

“虽然超级应用尚未出现，但AI的实际渗透率已经不低，并且将在2025年继续井喷式增长。”

新年第一天，李彦宏就以百度全员信的方式说出了自己对2025年AI发展趋势的判断。

尽管Scaling Law在部分层面已经放缓，但AI必然依旧是2025年科技的主旋律之一，超级AI原生应用依旧是赛道上各位玩家所追求的目标。

经历过2023与2024年的“百模大战”探索之后，以“AI六小龙”为代表的各位玩家逐渐走上了不同的技术路线：智谱专注于Agent的研发与应用；MiniMax致力于多模态大模型；百川智能专注于自然语言处理；月之暗面不断提升AI助手的交互能力；阶跃星辰持续优化算法和算力；零一万物则专注于探索超大模型的知识迁移。

但在六小龙之外，有一家实力不容小觑的AI公司一直非常低调，那就是昆仑万维。

去年11月28日，昆仑万维创始人周亚辉的一条朋友圈在网络上疯传。周亚辉不仅认可字节在AI上的战略布局，并且给昆仑万维在过去一年的AI战略也打出满分，原因是足够差异化，找到了小而大美的发展空间。

周亚辉所言非虚。

就在周亚辉发布朋友圈的前几天，昆仑万维先后发布了天工大模型4.0中的推理模型“o1”（Skywork o1）和端到端语音模型“4o”（Skywork 4o）及实时语音对话助手“Skyo”。

其中，Skywork o1是国内首款具备中文复杂思考推理能力的系列模型，比智谱在12月31日宣布上线的类o1推理模型GLM-Zero-Preview早问世一个多月。

目前，这两款模型和语音产品正式在Web端与App端全面上线，直接可用。它们所展现的强大能力仿佛在向外界传递一个有力的声音：

这一次，不再低调的昆仑万维，在2025开年之际给大模型带来了新惊喜。

1.不只是升级，更是AI革新

最受期待的必然是天工大模型4.0的Skywork o1推理模型。

去年9月，OpenAI第一次向世界展现了推理模型o1的强大。尽管当时的o1仅有o1-preview和o1-mini两个版本，但在物理、化学、数学、逻辑等多个维度的基准测试中，水平都已超过了GPT-4o模型。随后在12月，OpenAI发布了正式版o1模型。

与其他模型相比，o1的最大特点是，它能通过类似人类的推理过程来逐步分析问题，直至得出正确结论。

对比OpenAI，昆仑万维的Skywork o1模型更侧重于中文支持和推理速度，在中文逻辑和推理类问题上表现更加突出。

先上一个简单的鸡兔同笼问题。Skywork o1用最常规的二元一次方程轻松解答。

但鸡兔同笼对于AI来说可能太简单了，看不出来Skywork o1的推理与运算能力，再来一个数学经典的德·梅齐里亚克的砝码问题。

Skywork o1只用了52秒就给出了正确答案。

再上点强度，给它出一道逻辑推理题。

我们发现，Skywork o1可以根据题面给出自己的答案，并呈现了完整的思考过程。只是回答稍微有点瑕疵（因为严格按照题面要求，甲乙二人是不能做出“指路”这个动作的）。我们再稍微要求它一下。

很快，Skywork o1给出了更为标准的答案。

别小看这道看似简单的逻辑推理题。它把智谱前些天刚刚上线的GLM-Zero-Preview直接整不会了。

对比之下，Skywork o1在中文逻辑推理和计算方面的表现确实更加优异。

总结下来，相较于此前（长文本任务）大模型，无论是常识推理问题、逻辑推理问题、数学推理问题、伦理决策问题、还是“弱智”（类似脑筋急转弯）逻辑陷阱问题等，Skywork o1都处理的游刃有余。

再来看天工大模型4.0中的端到端语音模型Skywork 4o。

同样是在去年，OpenAI在5月的发布会上展示了4o多模态模型。观众们对它最深的印象就是可以像打电话一样和该模型进行流畅的语音交互，而不会像siri一样感觉自己在和一个语音助手对话。

在最新的天工App里，Skywork 4o是作为实时语音对话助手“Skyo”来实现的，目前在iOS与安卓系统上已全面上线。

Skyo的交互界面也同样是熟悉的语音电话，声音默认是男声，听上去像是个20～30岁有一定社会经验的职场人，后续版本还将支持修改和自定义。

既然是这种设定，那么我们直接上点强度，让他回答一个中国男人在成长中普遍会被问到的问题：妈妈和女朋友同时掉河里，你先救谁？

听上去Skyo的回答还是像大多数AI大模型一样四平八稳，不过在理智中又流露着满满的求生欲。

我们再来问它一个：有钱能买到一切吗？

这一次Skyo显然不像作者一样拜金，或许它还没有背负起生活的重担吧。

我们再来问一个更有趣的问题：功夫熊猫和孙悟空谁更适合当队友？

Skyo更喜欢功夫熊猫，给出的理由是因为有功夫熊猫更快乐。“做人嘛，最重要的就是开心啦”。真没看出Skyo还是一个港片爱好者。

最后再考考它的数学能力吧。1+2+3+…+100=？

Skyo很轻松的用等差数列公式给出了正确答案。

还有很多轮的对话测试，篇幅所限不能全部列出。在整体的测试中，Skyo能够在1秒内回复用户的问题。并且它的回答基本都是准确的，没有出现对话类大模型经常会遇到的幻觉问题。

不难发现，无论是o1还是4o，都能够对用户的问题进行流畅的回应并给出正确答案，尤其是Skywork o1，给用户带来了完全不输OpenAI的使用感受，甚至还有惊喜。

作为国内首款具备中文逻辑推理能力的模型，显然，Skywork o1的率先上线意味着中国人工智能领域的重要突破，填补了国内在这一领域的空白。

不夸张的说，天工大模型4.0所带来的o1与4o不只是产品能力的升级，更是市场所期待的AI革新。

2.时间与技术的双重领先

Skywork o1与Skywork 4o之所以能够率先推出并取得同类产品领先的实际效果反馈，离不开它在技术层面的优势。

不同于现有的复现OpenAI o1模型的工作，Skywork o1真正让模型拥有了思考和反思带来的推理能力的提升。进阶版复杂人类思考能力的解锁无疑会成为大模型在垂类领域发展的强大助推器，对于医疗、金融等专业领域意义重大。

在去年11月发布的产品介绍中，昆仑万维介绍了Skywork o1的天工三个阶段自研的训练方案：

推理反思能力训练：通过自研的多智能体体系构造高质量的分步思考，反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。
推理能力强化学习：团队研发了最新的适配分步推理强化的Skywork o1 Process Reward Model（PRM）。实验证明Skywork-PRM可有效的捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。
推理planning：基于天工自研的Q*线上推理算法配合模型在线思考，并寻找最佳推理路径。这也是全球首次将Q*算法实现和公开。Q*算法落地也大大提升了模型线上推理能力。

自研的训练方案之下，Skywork o1获得了同级别领先的模型能力。

标准数学基准测试结果

代码基准测试结果

典型逻辑运算推理测试结果

从这几个结果不难发现，与目前市面上其他几家主流大模型相比，Skywork o1的能力显著优于常规通用大模型，表现仅次于o1-mini。

需要指出的是，除了昆仑万维之外，智谱（GLM-Zero-Preview）和Kimi（k1视觉思考模型）目前也已经发布了o1推理模型。

只不过在前面的测试中，GLM-Zero-Preview在一个看似简单的推理问题上栽了跟头。而Kimi在经典的“爱因斯坦的逻辑题”上，不仅分了两次才回答完，而且给出的答案也并不正确。

作为国内率先发布的o1模型，昆仑万维基于Llama 3.1 8B的开源模型训练了Skywork o1 Open。该模型在同生态位开源模型中评测指标大幅提升达到SOTA水平，并解锁了许多轻量级模型无法解决的复杂数学任务，帮助国内开源社区加速复现o1的进程。

而在4o模型方面，不同于o1模型，由于4o模型亮相更早，所以国内也已有不少公司在去年发布了类似的模型。例如智谱和阶跃星辰都已经发布了GLM-4-Voice和Step-1o-Audio模型。

智谱的GLM-4-Voice模型上线App的时间较早，并且也同样在模型中加入了多模态能力，可以直接在语音对话过程中切换成视频模型来识别屏幕中的物体。但在测试过程中笔者发现，识别会受光线和物体本身的影响，偶尔会出现识别不出或错误的情况，并且语音交流偶尔也会出现中断。

相对而言，昆仑万维的Skywork 4o更专注于语音的模型能力建设。基于昆仑万维自身长期在语音和音乐大模型方面的经验，以及大量语音数据积累，自研端到端链路，让Skywork 4o在高强度对话交互中仍能保持稳定性和流畅性。

Skyo利用超过百万小时的语音数据进行了大模型预训练，学习到了真实世界各种场景、不同风格的说话表达方式，在回复时的语速、语调、情感方面不再干巴巴，变得更加自然、更加多变、更有人情味。

也得益于端到端建模，Skyo能够像人类一样，能听懂用户的语音，并提供了高质量交互能力（包括极低延迟、实时打断）自然、流畅的互动体验，用户也能快速获得智能的语音回应。

上图为Skyo所采用的语音对话框架，专为全双工端到端语音对话设计，方便用户通过自然的对话方式与智能系统交流。整个框架可以分为以下几步：

语音输入（Speech Query）与语音编码（Speech Encoder）：用户通过语音表达自己的问题或请求，这些语音被系统接收，作为对话的起点。系统利用语音编码器将接收到的语音信号转换为语义表示。
适配转换（Adapter）：语音的语义表示通过适配模块的模态对齐被调整为大语言模型（LLM）能够理解的格式，为语音与文本语义的无缝对接提供支持。
大语言模型（LLM）：经过适配的语音信息被输入到核心智能模型（LLM），模型通过多模态的处理能力理解语音意图，并生成相应的解决方案或回答。
语音输出（Speech Token）：系统支持直接输出语音令牌（Speech Token），通过扩散模型将这些令牌还原为真实语音，实现从语音输入到语音输出的端到端交互。

更重要的是，基于天工AI的大模型技术能力和AI搜索功能，Skyo能克服大模型幻觉问题，在对话中回复真实内容。

而上述这些Skywork o1与4o的能力，用户都已经可以在天工大模型4.0的web端或App端免费体验到。

3.小而大美——昆仑万维的生态位

2024年以来，昆仑万维的天工AI持续进化，陆续发布了“天工2.0”“天工3.0”，以及近期的“天工大模型4.0”Skywork 4o和Skywork o1。

在「甲子光年」看来，这一过程不仅是昆仑万维构建AI技术栈的必经路线，更是昆仑万维贯彻“All in AGI 与 AIGC” 战略的重要举措。因为在这一过程中，昆仑万维基于天工大模型能力推出了一系列性能较为强大的模型产品，逐步完成在AI搜索、AI音乐、AI社交、AI视频等领域的布局。

对于昆仑万维的AI战略，周亚辉在朋友圈上给出了满分的评价。他认为昆仑万维找到了属于自己“小而大美”的空间。而这种空间背后，代表着差异化与垂直化。

与国内很多AI新锐公司和巨头公司不同，在发展AI这件事上，昆仑万维并没有选择在大模型和应用层全面铺开，而是深耕垂直领域，打造属于自己的生态位。

从PC时代到AI时代，昆仑万维的优势是基于其多年在游戏、搜索、社交娱乐等等业务的积累。无论在训练数据还是在产品洞察上，昆仑万维都有着更深的认识，从而打造差异化的产品优势。

事实上，通过前文我们对Skywork o1与4o的实际测试，这种差异化与垂直化打法，已经开始让昆仑万维在产品能力上实现领跑，甚至给用户们带来了不逊于OpenAI等全球顶级的产品体验。

此外，在探索商业化赛道上，昆仑万维也选择聚焦于AI搜索、AI社交、AI游戏、AI短剧等细分市场，凭借多年积累的业务经验和数据壁垒，推出更具竞争力的AI产品和服务。

一直以来，外界对昆仑万维的认知都是“低调干大事”。

例如2023年8月，昆仑万维就推出了国内第一个AI搜索引擎——天工AI搜索。昆仑万维的AI能力在过去很长一段时间里都被人低估。

但如今，昆仑万维向外界展示出在AI技术上卓越的创新能力，从天工1.0到天工4.0，模型的语义理解、逻辑推理等能力显著提升。

特别是Skywork o1，昆仑万维通过自研训练方案等，进一步提升了模型的输出质量和推理能力。这种技术上的突破，为昆仑万维在专业领域如学术、金融等提供了强大的技术支持，同时也为其在AI领域的持续发展奠定了坚实的基础。

而此次Skywork o1和4o的全量上线，不仅展现了昆仑万维“All in AGI 与 AIGC”的战略方向，补足了完整的AI技术栈，更提升了其在人工智能领域的竞争力，为通用人工智能的发展贡献了力量。

「甲子光年」认为，昆仑万维在AI战略上的差异化与垂直化，是其能够在激烈的市场竞争中立足的根本原因。通过深耕垂直领域和技术创新，昆仑万维不仅在特定市场中积累了丰富的经验和用户基础，还构建起了强大的技术壁垒和竞争优势。这种独特的战略定位和发展路径，为昆仑万维在AI时代的发展提供了广阔的空间和无限的可能。

还是那句话，今天以后，“小而大美”的昆仑万维不再低调。