近日,云知声正式对外发布新一代通用大语言模型U2。区别于行业内盲目堆叠参数的迭代思路,U2定位面向个人、开发者与政企组织的原生智能体大模型,以“高智能密度×高Token价值”为核心技术主张,推动大模型从问答对话向全链路自主任务执行跨越,开启AI2.0务实落地新阶段。

打开网易新闻 查看精彩图片

最新的测评显示,U2展现了极度务实、面向真实企业级落地场景优化的强大实力。U2在长文本理解、核心知识推理和复杂指令遵循等基础能力评测中全面领先,充分印证了其“高智能密度”的技术路线主张。

脱离真实生产环境的基础测评不具备落地参考意义,在贴近产业实操的代码工程、原生Agent能力测评中,U2同样表现亮眼。无论是深入真实GitHub开源仓库完成代码修复与单元测试跑通,还是在多工具协同的复杂办公环境中完成长流程任务交付,U2都展现出原生Agent架构所具备的规划、执行与验收能力。

在轻量化软件开发测评中,U2自主完成俄罗斯方块小游戏全流程开发,接收到任务后,U2直接自主完成需求拆解、架构设计、代码编写、运行验证等一系列操作。几分钟后,一个可直接运行的产品已经生成,可以看到渐变色方块、动态粒子背景、完整交互逻辑一应俱全。

打开网易新闻 查看精彩图片

复杂长链路任务测评同样验证了U2的长程稳定性。面对六大维度的新能源汽车行业全景报告撰写任务,U2从市场规模、竞争格局、技术路线、政策环境、基础设施、未来趋势等维度进行分析,涉及市场数据获取、行业信息检索、风险测算、风格分析、宏观研判以及最终报告生成等多个环节,最终呈现出来一份结构完整、逻辑清晰、具备参考价值的专业研究报告。整个过程,U2的表现像一个真正的研究团队负责人。接收到目标后,它会自主拆解任务、规划执行路径,并根据不同阶段调用对应工具,完成数据获取、信息筛选、逻辑推演和结果验证,将多个独立环节整合为一条完整执行链路。

打开网易新闻 查看精彩图片

从测试结果来看,从性能到真实场景落地,U2始终围绕一个目标:把智能真正变成生产力。真正优秀的Agent,不只是会干活,而是能够干得完、干得快、干得省,并最终创造持续的商业价值。从这个意义上说,U2已经完成了从“生成答案”走向“完成任务”的一次跃迁。