国产大模型迈入Agent时代！阶跃星辰发布开源Step 3.5 Flash！|agent|flash|大模型|算法|量子|阶跃星辰

引言

当AI每秒处理350个token，当国产芯片集体适配，当开源性能逼近闭源巨头——Agent 的平民化革命，正式开启。

2026年2月2日，国产AI独角兽阶跃星辰发布其最强开源基座模型——Step 3.5 Flash。
这款专为智能体（Agent）打造的模型，不仅创下350 TPS（每秒token数）的推理速度新纪录，更同步获得华为昇腾、阿里平头哥、沐曦、壁仞、燧原、天数智芯六大国产芯片厂商的全面适配。

这意味着：高性能、低成本、全自主的Agent开发时代，真的来了。

一、Agent落地的两大“拦路虎”：慢 + 贵

2025年被称为“Agent元年”，但现实很骨感：

响应太慢：主流模型推理速度仅50–100 TPS，生成一段代码要等几秒甚至几十秒
成本太高：API月费动辄数万元，中小企业望而却步

数据触目惊心（量子位，2025）：

78%的开发者认为“推理速度不足”是最大障碍
65%的团队因成本问题暂停Agent项目

更严峻的是：OpenAI等闭源模型虽强，但存在技术卡脖子风险。
市场急需一款——开源、高速、低成本、国产可控的Agent基座模型。

Step 3.5 Flash，正是答案。

二、阶跃星辰：被低估的Agent基础设施玩家

在聚光灯之外，这家由前微软亚研院首席研究员姜大昕创立的公司，已蛰伏两年：

2025年7月：联合近10家芯片厂发起「模芯生态创新联盟
2025年底：旷视联合创始人印奇出任董事长，获腾讯、华勤等超50亿元B+轮融资

与追求“通用智能”的大厂不同，阶跃星辰从成立起就聚焦一件事：
打造Agent时代的底层引擎

其Step系列采用稀疏MoE架构：

总参数：1960亿
每次推理仅激活：110亿参数→ 在保持千亿级智能的同时，大幅降低计算开销与部署成本

这一战略，在Step 3.5 Flash上迎来爆发。

三、350 TPS 是怎么做到的？三大技术密码1. 稀疏MoE 架构的极致优化

传统MoE常因“专家负载不均”拖累效率
Step 3.5 Flash 采用动态专家路由算法，精准匹配最优专家组合
计算量减少80%，能力仍对标千亿模型✅ 实测可在Mac Studio M4 Max等消费级设备流畅运行，兼顾性能与隐私

2. MTP-3：一次预测3个Token

多数模型逐个生成token → 慢
Step 3.5 Flash 创新采用Multi-Token Prediction（MTP）
每次推理并行输出3个token，通过改进注意力机制保证连贯性✅ 在256K长上下文场景下，端到端延迟降低40%+

3. 3:1混合注意力：聪明地“跳读”长文本

传统全注意力：计算量随文本长度平方级增长
Step 3.5 Flash 采用3层滑动窗口 + 1层全局注意力的混合架构
自动聚焦关键信息，跳过冗余内容✅ 256K上下文处理成本下降50%，关键信息捕捉能力不减

隐藏王牌：Parallel Thinking（并行思考）

模型可同步探索多条推理路径，融合最优解
官方测试：XBench-DeepSearch 分数提升12%→ 相当于给AI装上“双核大脑”

四、国产芯片集体“站队”：不是适配，是深度协同

Step 3.5 Flash 最大的突破，不止于模型本身——
而是国产算力生态的快速响应：

芯片厂商

优化亮点

华为昇腾

通过CANN架构深度绑定，部署成本降30%

燧原科技

专为稀疏MoE设计动态调度指令集，效率再提15%

阿里平头哥、沐曦、壁仞、天数智芯

全面完成算子融合与内存布局优化

这打破了长期以来对英伟达CUDA生态的依赖。
对国产芯片而言：需要标杆模型证明实力；
对模型厂商而言：需要多元算力保障供应链安全。

“模芯协同”不再是口号，而是现实。

对开发者意味着：
✅ 可在昇腾服务器跑企业服务
✅ 可在Mac本地保护数据隐私
✅ 可在AMD工作站追求性价比
——选择权，回到自己手中。

五、Agent开发，正在“平民化”成本重构：单位token成本仅为稠密模型的1/3

示例：处理10万token代码任务 GPT-4o：约30美元自建Step 3.5 Flash：仅8美元↓73%

⚡ 场景突破：350 TPS 让“实时Agent”成为可能

电商客服：1秒内完成意图理解 → 检索 → 计算优惠 → 生成回复
复杂任务：自动拆解为“搜索”“验证”“总结”等子Agent，协同执行

端云结合：催生“混合智能”新架构

敏感数据在本地模型脱敏
非敏感部分上传云端深度分析→ 在医疗、金融等高合规领域极具价值

正如印奇所说：

“我们的目标不是做最聪明的模型，而是做最值得托付的Agent搭子。”

可靠性、速度、成本——才是Agent时代的真正护城河。

六、普通人如何抓住这场红利？开发者

已上线Hugging Face & GitHub，支持免费试用
建议从代码助手数据分析Agent切入——这两个场景对速度最敏感

中小企业

无需自建算力，通过OpenRouter等平台按量调用
可先将客服、文档处理等重复工作Agent化，人力成本降30%-50%

投资者

关注“模芯协同”产业链：工具链、应用层公司将随生态爆发
参考海外经验：1美元模型投入 → 带动10美元应用价值

普通用户

未来半年，搭载Step 3.5 Flash的国产App将密集上线
当响应从5秒→1秒，交互体验将迎来质变

阶跃星辰透露：Step 4 已启动训练，Agent能力将持续进化。

数据来源说明模型发布、性能数据：凤凰网科技，2026年2月2日芯片适配、模芯联盟：新浪财经，2026年2月2日技术细节（MoE/MTP/混合注意力）：搜狐科技，2026年2月2日成本与速度对比：量子位，2026年2月2日应用场景案例：品玩，2026年2月2日行业背景与调研：量子位《2025 AI开发者报告》等综合分析

互动话题