关于商汤新一代多模态大模型“日日新V6”,徐立表示,一些核心的指标,在纯文本和多模态的单任务和复杂任务的推理之上,商汤都居于行业前列。

文|深度AI 王欣

编辑|July

在4月10日的技术交流日上,商汤科技展示了其在人工智能基础设施与多模态大模型领域的最新突破。

当天,商汤科技新一代多模态大模型「日日新V6」(SenseNova V6)发布,以「强推理、强交互、长记忆」为核心突破,重新定义了AI在复杂场景中的应用范式。

据悉,这一模型不仅通过技术创新实现了对OpenAI o1、GPT-4o等国际顶尖模型的性能对标,更以「成本最低、效率最高」的标签推动AI技术向普惠化迈进。

商汤科技董事长徐立在发布会上重申核心理念:「AI之道,在于百姓之日用」,强调技术需服务于日常生活的真实需求。

作为拥有超6000亿参数的混合专家架构(MoE)模型,「日日新V6」在权威的推理能力及多模态能力评测中多个维度获得SOTA。

日日新v6纯文本推理与多模态推理能力均对标GPT-4.5 和 Gemini 2.0 Pro成绩

除此之外,「日日新V6」的核心竞争力在于其多模态长思维链技术。

通过整合200B高质量多模态长思维链数据,模型支持最长64K的跨模态逻辑推理,能够对文本、图像、视频、语音进行时序对齐与全局记忆处理。

例如,在保险理赔场景中,V6可同时解析医疗单据、影像报告和语音描述,自动交叉验证材料完整性,将原本需3-7天的审核流程压缩至秒级响应。

这一能力源于其动态过滤与级联压缩技术——10分钟的视频可被压缩至16K tokens,同时保留关键语义帧与上下文逻辑,为长视频理解提供了新范式。

在成本控制上,商汤通过异构算力调度与动态弹性扩缩容技术,将推理成本降至行业最低。

例如,当客户使用5000卡异构集群训练时,商汤通过热备机冗余和任务拆分优化,将国产芯片利用率提升至80%,远超行业平均50%-60%的水平。

这一技术组合不仅缓解了芯片供应链波动带来的成本压力,也降低了中小企业接入AI的门槛。

当然,「日日新V6」的发布并非单纯的技术秀,其真正价值在于深度嵌入真实业务场景。

比如在消费领域,V6的「购物比价」功能可通过图片识别商品参数,结合跨平台价格数据,实时计算最优购买方案。

想象一下,用户上传抽纸包装图,模型可精确对比不同电商平台的单价,甚至将优惠券、满减规则纳入计算。

在教育场景,V6的「一对一私教」模式支持手写解题分析与实时语音答疑,其多模态交互模型SenseNova V6 Omni能根据儿童提问动态调整故事讲述风格,实现绘本点读与情感化互动。

更具战略意义的是其在具身智能领域的突破。

发布会现场,商汤官宣与傅利叶机器人合作,基于V6 Omni实现了语言、行为与环境感知的统一。

比如,机器人可通过摄像头识别用户手势,结合语音指令调整动作,在输出「请递水杯」语音的同时,同步完成抓取与移动的连贯操作。

这一能力依赖V6的多模态上下文表达技术——将语音、视频、文本与时间轴对齐,为机器人提供了更丰富的训练数据与泛化能力。

「选择具身智能并不是我主动的选择,更多的还是主要在服务科技创新的群体。」商汤科技联合创始人、大装置事业群总裁杨帆说。同时做基础大装置和大模型是商汤科技的一大特色,其中比较典型的协同场景是对推理过程做预填充和解码的分离,这是一种架构优化技术,可以提升 GPU 硬件利用率并降低推理延迟。

「日日新V6」的推出,恰逢多模态AI成为行业竞争主战场。

现在,OpenAI的o1、谷歌Gemini 2.0 Pro均在探索跨模态推理,但商汤通过「长思维链+低成本」组合形成了差异化优势。

当前,视频内容消费市场快速增长,快手、抖音等平台对中长视频解析的需求激增,而传统模型受限于短视频处理能力。V6的10分钟全帧率解析与智能剪辑功能,不仅满足了用户保留「高光时刻」的需求,也为广告、教育、文旅等内容创作者提供了自动化工具。

商汤首席科学家林达华透露,年内将实现1小时视频的端到端分析,进一步抢占视频大模型市场。

另一方面,AI普惠化趋势要求技术供应商兼顾性能与成本。商汤通过开放API与「商量APP」内测,将V6的能力输出至开发者生态。

比如,中小企业可直接调用V6的预训练模型完成商品比价、财务审核等任务,仅需针对场景微调少量参数,大幅降低开发周期与资源投入。

这种「即插即用」模式,正推动AI从实验室技术向规模化应用转型。

而在制造业,商汤科技也正用预训练模型实现「即插即用」的产线升级,意在让AI像水电一样渗透到每个行业的基础设施中。

而「百姓之日用」的初心,或将帮助商汤在全球AI竞赛中走出一条差异化路径——技术领先性固然重要,但只有当创新真正服务于人的需求时,才能真正定义未来的规则。

商汤的野心已经不止于单一模型。

它正通过「日日新V6」,其正构建一个涵盖硬件、算法、开发者的全栈生态。

例如,与阿里、腾讯等云厂商类似,商汤将大模型与自研的AI基础设施(如异构算力调度系统)深度整合,形成「模型-算力-场景」闭环。

这种协同效应在具身智能、智慧城市等长尾场景中尤为显著——商汤既提供底层算力支持,又通过模型优化解决具体问题,形成技术壁垒。

但挑战也依然存在,开源社区的快速发展正在缩小技术差距,而伦理与数据安全风险仍需谨慎应对。

商汤的回应是聚焦「行业深度结合」,例如在医疗领域通过国密认证数据沙箱处理敏感信息,在确保合规的同时提升落地效率。

这种「技术+场景+合规」的三维策略,或将成为其在激烈竞争中保持领先的关键。

现在,商汤科技正通过多模态深度推理与独创的低成本架构,重新划定了AI的能力疆界——从保险理赔的秒级审核到教育场景的智能私教,从消费比价的精准推荐到具身机器人的连贯操作,技术不再局限于实验室参数,而是深度嵌入百姓生活的毛细血管。

正呼应了徐立那句,「AI之道在于百姓之日用」。

这些理念都在V6的落地应用中逐渐得到最直观的印证:当技术真正解决日常痛点时,普惠价值才能被激活。

【关注智能汽车,关注智驾网视频号】

关注汽车的智驾时代上智驾网(http://autor.com.cn)
合作or新闻线索提供,联系邮箱:editor@autor.com.cn