打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

来源:量子位、联影智能、联盟整理

4月24日,上海联影智能科技股份有限公司(以下简称“联影智能”)开源了全球首个医疗视频理解大模型——uAI Nexus MedVLM(元智医疗视频理解大模型)。该论文被CVPR 2026收录,同步开源的还有6245组精标测试集与全球首个医疗视频理解公共评测体系。

打开网易新闻 查看精彩图片

医疗视频理解领域,终于有了第一把"标尺"。

三大核心瓶颈,

长期制约行业发展

长期以来,医疗手术视频理解领域始终存在三大核心技术瓶颈,制约着行业的发展:

  • 其一,数据获取与标注成本高企。手术视频涉及患者隐私保护,合规数据的获取本身存在较高门槛;而精细化的帧级标注,需要临床医生的专业参与,标注成本极高,绝大多数研发团队难以承担。

  • 其二,行业缺乏统一的评测标准。过往行业内各研发主体采用独立的数据集与评测指标,技术能力的横向对比缺乏统一标尺,导致赛道发展陷入同质化内耗,技术迭代节奏受阻。

  • 其三,任务技术壁垒极高。手术视频理解需要实现毫米级的空间识别、高精度的时序逻辑理解,以及高度专业化的临床语义解析,对模型的感知与推理能力要求严苛;即便是当前顶级的通用大模型,也难以适配这一高度专业化的临床场景。

针对性突破:

53万条数据,单卡能跑

而本次,联影智能发布的 uAI Nexus MedVLM,就专门针对上述大三瓶颈进行了突破。

uAI Nexus MedVLM的底子是53万条视频-指令数据,4B/7B参数规模,一张卡就能部署。覆盖内镜、腹腔镜、开放手术、机器人手术、护理操作等8个医学数据集。

而模型能干8件事:视频摘要、关键安全视野评估、下一步操作预测、技能评估、时间动作定位、密集视频描述、区域级描述、时空基础化

团队还开发了MedGRPO强化学习框架,解决了一个很实际的问题——异构医学数据混合训练容易崩溃。他们用跨数据集奖励归一化和医学LLM评审机制,让不同难度的数据集能公平优化。这套框架让器械定位能力提升14%,手术步骤识别能力提升52%。

性能测试结果显示,uAI Nexus MedVLM 在多项医疗视频核心任务中,性能全面超越当前主流通用大模型:

  • 手术安全评估任务中,模型准确率达 89.7%,是GPT-5.4(16.4%)的 5.5 倍,远超 Gemini-3.1 的 24.2%;

  • 时空动作定位任务中,模型 mIoU 指标为 Gemini-3.1 的 3.2 倍,为 GPT-5.4 的 47 倍;

  • 视频报告生成任务(5 分制)中,模型得分 4.24 分,高于 GPT-5.4 的 3.98 分。

打开网易新闻 查看精彩图片

「元智」医疗视频理解大模型 (uAI NEXUS-MedVLM) 在多项医疗视频核心任务中性能全面超越主流通用大模型

以腹腔镜胆囊切除术的操作描述任务为例:

GPT-5.4仅能给出笼统的泛化描述,无法识别具体手术器械;

Gemini-3.1出现了器械识别错误,将手术工具误判为 “电凝钩”;

其他国产通用大模型则无法识别正确的手术步骤。

uAI Nexus MedVLM的输出为:“位于左上方的抓钳持续向上并朝中央牵引胆囊,保持张力并为钩子暴露分离平面”,几乎接近标准答案。

全链条开源,

打造全球协同研发生态

值得一提的事,联影这次不只是开源模型,还同步开源了大规模高质量医疗视频标注数据,提供了一个统一的评测基准,彻底解决了过往行业内技术能力无法横向对比的问题。

以前各说各话,现在同一个数据集上跑一跑,谁强谁弱一目了然。

此外,联影智能还发布「医疗视频理解大模型榜单」,面向全球开发者发出邀请。开发者提交模型结果,系统自动评分,动态更新排行榜。全球开发者都能下载模型、用数据集、上传成果。

医疗视频理解大模型榜单

本次 uAI Nexus MedVLM 的开源,不仅是联影智能在医疗AI领域的又一次技术突破,更是整个医疗视频理解赛道的全新起点。

未来,随着该模型与具身智能等前沿技术的融合落地,医疗 AI 将逐步从影像诊断等单点场景,向全流程、全场景的临床辅助延伸,真正实现技术普惠,为全球医疗行业的数字化转型,注入全新的行业动力。

  • 项目主页

    https://uii-ai.github.io/MedGRPO/

  • 模型详情

    https://huggingface.co/UII-AI/uAI-NEXUS-MedVLM-1.0a-7B-RL

  • 数据集

    https://huggingface.co/datasets/UII-AI/MedVidBench

  • 大模型榜单

    https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard

  • 推理代码

    https://github.com/UII-AI/MedGRPO-Code

  • 模型体验

    https://huggingface.co/spaces/UII-AI/MedGRPO-Demo

本文为转载发布,仅做分享,文章中观点仅代表原平台作者观点,与本平台无关。如若本文有与贵平台发布原创内容有重合之处,或未经授权使用,系原平台行为,本平台仅转载。您可以第一时间联系我们删除文章,我们会立即响应!

#中国CT报告

打开网易新闻 查看精彩图片