打开网易新闻 查看精彩图片

今年的 AI 圈,有点像 2008 年的智能手机市场,所有人都知道触摸屏是未来,但厂商们都在做「带触摸屏的诺基亚」。

Agent 时代已经来了,这是共识。而怎么做一个好用的 Agent 模型?按照惯性思维,或许还是一样,更多的参数,更深更广的网络结构,还有更大的数据集。

打开网易新闻 查看精彩图片

300B 不够就 1T,1T 不够就 10T。仿佛只要把模型做得足够大,Agent 能力就会自然涌现,就像只要把诺基亚的屏幕做得足够大,iPhone 就会自己出现一样。

大参数模型确实带来了更博学的知识面和更稳健的底座,但这种一味在上一代模型上「优化 」的方法,显然不能让我们手里的 Agent 更好用,Agent 时代需要 Agentic 的模型

那有没有一条更高效的、真正颠覆性思维的路线,不靠堆参数,靠架构优化;不需要云端服务器独占,本地也能跑;既是全能选手的同时,又有定向优化。

打开网易新闻 查看精彩图片

▲模型参数规模与智能对比图,Step 3.5 Flash 总参数在图中最少,但智能得分排名第二

2 月 2 日,阶跃星辰发布并开源了最新基座模型 Step 3.5 Flash,这是一个让 Agent 更高效的底层支撑模型,采用稀疏 MoE 架构,总计 1960 亿参数,但每个 token 仅激活约 110 亿个参数。

这是大模型行业里一个十分反常识的数据,在一众卷向万亿参数的竞争对手面前。似乎显得有些「掉队」。然而就是这个看似「掉队」的选择,可能藏着 Agent 时代最大的秘密。

L3 时代的模型,不能再沿着 L1 的梯子爬

如果这放在半年前,阶跃星辰可能还在做着另一件事。

阶跃星辰联合创始人兼 CTO 朱亦博在最新的博客中提到,Step 2 模型时代,他们也曾是 Scaling Law(规模定律)的忠实信徒。和当时所有的模型厂商一样,他们认真地爬着那座名为参数的梯子,设计了比 DeepSeek V3 还要大的参数量,甚至比对方早训练了好几个月。

结果是,虽然跑分一度辉煌,但在 DeepSeek R1 的推理范式面前,传统的堆料逻辑还是遭遇了降维打击

原因很简单,DeepSeek R1 是一个时代的跨越,从 L1 的 Chatbot 到 L2 的 Reasoner,继续用 Chatbot 的思维去做推理模型,不一定会失败,但注定要碰壁。

这不仅是阶跃星辰的复盘,更是整个行业的缩影。痛定思痛后,他们发现了一个被忽略的真相:L1 时代的 Chatbot(聊天机器人)和 L3 时代的 Agent(智能体),需要的是两种不同的模型

打开网易新闻 查看精彩图片

▲OpenAI 的五级框架,从第一级的聊天机器人,到推理、智能体、创新者和第五级的组织体

按照 OpenAI 的五级架构,我们正在经历从 L2 Reasoner(推理) 迈入 L3 Agent(智能体) 的跨越。

L1 Chatbot 时代:核心需求是对话流畅度,模型只要能快速响应、自然表达就够了。我们需要的可能是一个会背百科全书的「文科生」,它足够博学,能随口复刻鲁迅风。此时,每秒 20-30 个 token 的输出速度,刚好适配人类的阅读习惯 。

L2 Reasoner 时代:长思维链出现,我们需要模型展现完整的深度思考。看着长长的思考过程,我们觉得它聪明,甚至愿意为了更准确的结果等待数十秒 。

打开网易新闻 查看精彩图片

L3 Agent 时代:特征彻底变了。工作场景的上下文常驻 32K-128K 区间,我们不再逐字阅读输出,只盯着「什么时候能交付结果」。

在这种场景下,继续沿用 L2 时代的重型参数模型,打个比方可以说是,带着鳌太线的装备去爬佘山「沪太线」,虽然储备充足,但效率变低,且算力代价极其昂贵 。

Agent 在某种程度上,甚至可以说不再是给用户看的,而是给任务用的。它需要长上下文的高效运行,能轻松处理几十万 token 的代码库;以及速度的提升,这能直接决定用户体验;而核心还是规划和工具调用。

如果继续用 L1 时代的重型模型去跑 L3 的任务,就像开着法拉利去送外卖——不仅贵,而且在拥堵的「长上下文」路况里,根本跑不起来。

这也解释了为什么阶跃敢于反其道而行,掏出 Step 3.5 Flash这个「新物种」,专注于「快」与「强逻辑」。这种取舍乍看之下与行业格格不入,却有了更多的可能性。

天下武功,唯快不破:Agent 时代的「暴力美学」

Agent 时代,「快」不再是一种锦上添花,直接是模型生死线。

朱亦博指出了一个极易被忽视的细节,在 Chatbot 时代,模型输出只要快过人类阅读速度(20-30 tokens/s)就够了,再快我们也读不过来。但在 Agent 时代,这个标准完全失效

为什么?因为用户根本不想看过程。当 AI 帮我们写代码、查资料、订机票时,我们不会盯着屏幕看它一个字一个字往外蹦,我们只想要结果。

在这个阶段,速度不再是体验,而是生产力本身,直接决定了任务交付的效率。

为了实现这种极致的「快」,阶跃星辰在技术路线上做了一次豪赌。

打开网易新闻 查看精彩图片

▲Step 3.5 Flash 整体架构,Step 3.5 Flash 是一款采用稀疏混合专家(MoE)架构的大语言模型,其架构由模型-系统协同设计定义,并且将推理成本和速度作为核心架构约束。

在同行都在盲目跟风 Linear Attention(线性注意力机制)时,Step 3.5 Flash 坚持选择了SWA(滑动窗口注意力)架构。这种混合注意力布局,一方面能更快的处理 Token 计算,另一方面也解决了长上下文处理的二次瓶颈。

简单来说,它不是死记硬背 256K 的全文,而是像人类一样,有重点、有节奏地分配注意力。这让它在处理海量数据时,不仅不降智,还能大幅降低算力开销。

看起来是一种「逆行」,其实正是 Agent 时代「以巧见大」的精算。因为在当前的硬件条件下,SWA 对投机采样(Speculative Sampling)最为友好。这种技术上的取舍,直接将单请求代码类任务的推理速度干到了最高350 tokens/s

快如闪电的「瞬杀」,是直接将 AI 从「玩具」变成生产力工具的决定性瞬间在 Step 3.5 Flash 发布首日,就登上 OpenRouter Fastest Models 榜单

打开网易新闻 查看精彩图片

▲根据 OpenRouter 最新发布的 Fastest Models 排名显示, Step 3.5 Flash 的生成速率达到 167 Tokens/s,位列全球最快模型之列。

拒绝「背题家」,高智商才是第一生产力

跑得快不能以「降智」为代价,衡量一个模型适不适合做 Agent,「高智商」也是必不可少。

无论是我们用户还是大多数模型厂,普遍的共识都是:参数越大,能力越强。但 Step 3.5 Flash 在数学领域的屠榜表现,用合适尺寸 + 极致后训练,也得到了不输大参数模型的效果。

打开网易新闻 查看精彩图片

  • AIME 2025(美国数学邀请赛)中,它拿下了97.3 分
  • IMOAnswerBench(国际数学奥林匹克题基准)中斩获85.4 分
  • HMMT 2025(哈佛 - 麻省理工数学竞赛)中更是飙到了96.2 分

这是什么概念?这些分数均为国内顶级开源模型第一。

如果开启并行协同推理(PaCoRe)模式,它的得分甚至逼近满分。这种「智商溢出」的现象背后,藏着一个极其隐晦但精准的行业真相:过去的模型像是个「背题家」,靠死记硬背海量数据来蒙混过关;而 Step 3.5 Flash 是个真正的「解题家」。

打开网易新闻 查看精彩图片

▲PaCoRe(Parallel Coordinated Reasoning)的推理流程。每一轮启动广泛的并行探索,将生成的轨迹压缩成紧凑的信息,并将这些信息与问题一起传递,以协调下一轮。重复此过程 ˆ 次,可在遵守固定上下文限制的同时,实现数百万标记的有效 TTC(测试时计算),最终压缩的信息作为系统的答案。

在 Agent 的工作流中,这种能力是致命的。因为真实世界的任务充满了未知,我们要的不是一个只会复读知识点的鹦鹉,而是一个能看懂复杂指令、能拆解任务逻辑、能自我纠错的「超级大脑」。

推理能力证明了智商在线,但 Agent 还需要干活靠谱。Step 3.5 Flash 在多个关键场景拿到了国内开源第一。

代码能力:全球第一梯队

打开网易新闻 查看精彩图片

  • SWE-bench Verified: 74.4 分(真实开源项目的 bug 修复)
  • Terminal-Bench 2.0: 51 分(国内开源第一,终端任务自动化)
  • LiveCodeBench-V6: 86.4/88.9 分(国内开源第一,实时编码调试)

Agent 核心能力:多项国内开源第一

打开网易新闻 查看精彩图片

  • τ²-Bench: 88.2 分(国内开源第一,多步任务规划)
  • xbench-DeepSearch: 54 分(国内开源第一,深度搜索与信息整合)
  • BrowseComp: 69 分(第一梯队,网页浏览与上下文管理)

数据再漂亮,也得经得起真实场景的检验。在下面这几个典型场景中,Step 3.5 Flash 也验证了「以巧见大,快如闪电」不是口号。

普遍常识里,用 Deep Research 写分析报告,可能会觉得需要模型有引经据典的文采,但实际上还是依赖强大的逻辑推理和工具调用能力。

给它一个模糊的课题,比如「0-3 岁婴幼儿科学教育」,它不会直接胡编乱造,而是像一个真正的人类研究员一样,拆解任务、规划路径、联网搜索、反思修正,然后交给我们一份内容翔实、新手父母都能看懂的万字报告。

打开网易新闻 查看精彩图片

在 Scale AI 的 Research Rubrics 评测中,它的得分甚至压过了 OpenAI 和 Gemini 的同类系统。这也进一步说明,它已经具备了独立干活的「逻辑闭环」。

打开网易新闻 查看精彩图片

Step 3.5 Flash 同样能接入 Claude Code 环境,当要模型担任一名专业数据分析师,面对复杂的数据分析任务时,它不仅能自己写代码清洗数据、协助日常数据流程、对齐数据格式,还能直接产出工作流报告。

打开网易新闻 查看精彩图片

无论是做 Deep Research 还是 Vibe Coding 项目,这些要么在阶跃的官网完成,要么就是调用 API 的方式,但 Step 3.5 Flash 的野心远不止于从云端服务器拉取 AI 能力。

朱亦博透露,为了跑模型,他甚至自掏腰包买了一台设备。现在,Step 3.5 Flash 是目前能用 4-bit 量化,在128GB 内存的 MacBook上流畅运行 256K 超长上下文的最强模型,没有之一

这句没有之一,确实凸显了技术人的倔强。或许,这也暗示了阶跃星辰「AI + 终端」的终极图谋:最强的大脑,不应该只活在昂贵的 H100 集群里,它应该活在你的电脑里,甚至未来的手机里

当其他厂商还在卷融资、卷估值时,阶跃星辰已经默默地把高性能 Agent 的成本门槛,再一次降低。这正印证了那句战略预判:大模型竞争的「表演赛」已经结束,行业正式步入决定生死的「淘汰赛」。

春节 AI 大战里,又一匹搅动大模型格局的黑马

在最近喧嚣的 AI 发布混战中,Step 3.5 Flash 这匹黑马肯定其实有些被过于低估了,它不只是一个「高性价比」的模型,反而有点像一年前 DeepSeek 的突然出现,给 AI 行业趟出了一条新路:

在算力并不是无限的现实世界里,谁能用更精巧的架构、更少的资源解决更复杂的问题,谁才是真正的赢家。

那个靠堆参数就能骗到融资、靠刷榜单就能获得掌声的「草莽时代」已经一去不复返。接下来的战争,属于那些不仅「脑子好使」,而且「手脚麻利」的物种。

这种对「小型化、高效率」的坚持,本质上源于阶跃星辰对 AGI 使命的执着。朱亦博曾感慨,坚持训练基模的意义,除了商业优势,就是为了那份 「一直以来的 AGI 梦想」。

对阶跃星辰来说,通往 AGI 的路径不是靠赌一把大的,而是靠前瞻性的方法论,和对时代需求的精准判断。正如阶跃星辰新任董事长印奇在采访中所谈到的,「做好基模、探索整个智能的上限是阶跃的使命。」

从 Step 1 到 Step 3.5,从多模态到语音,从云端到终端,AI 与物理空间的结合、与终端硬件的深度布局,都是阶跃星辰走向最终 AGI 的必经之路。

打开网易新闻 查看精彩图片

当 AI 能力真正「飞入寻常百姓家」,技术竞赛的终点也不再是算力军备竞赛,AI 开始更好地服务我们,每个人,中小企业、个人开发者、学生都能低成本,用得起顶级 Agent 能力,AGI 才不只是巨头的游戏。

以巧见大,快如闪电。 这是 Step 3.5 Flash 给出的答案,也是阶跃星辰对 AGI 使命的又一次靠近。

那些坚持梦想的人,终会走出自己的路。而这条路,已经越来越清晰。