结直肠癌早筛关键! 全球首款结肠镜检查AI专家ColonGPT来了|colongpt|全国肿瘤|外科|手术|结直肠癌|结肠镜检查

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。A800/H20等算力6.25元/卡时，支持在线微调训练，及线部署和。

在多模态大模型持续突破的今天，AI正在以前所未有的速度渗透进各个领域。然而，当我们将视野投向医疗垂类场景，尤其是对诊断准确性和专业性要求较高的结肠镜检查，就会发现通用大模型仍面临推理失真、知识脱节、指令遵循度低等诸多问题。

与此同时，结直肠癌依然是全球第三高发和第二致死的癌症，而早筛是改善生存率的关键。结肠镜检查作为目前最敏感的早期筛查手段之一，承担着至关重要的角色。

ColonGPT模型解决了多模态结肠镜领域发展滞后的问题。其核心亮点在于，它是首个聚焦结肠镜检查领域的智能AI专家，还是一款更轻量更准确的辅助诊断助手，在保证诊断精度的前提下，以轻量化的技术架构实现高效运作，为结肠镜检查的辅助诊断带来新的突破与可能。ColonGPT大模型及相关数据集已上线始智AI-wisemodel开源社区，欢迎体验。

模型和数据集地址

数据集：https://wisemodel.cn/datasets/Jingyi/ColonINST

模型地址：https://wisemodel.cn/models/Jingyi/ColonGPT

01.

ColonSurvey：构建研究图谱

本文从数据驱动与模型驱动两大视角出发，首次系统的梳理了智能结肠镜的研究图谱，提出挑战与研究机遇，奠定了构建“智驱结肠镜”系统的基础认知框架。

就数据层面而言，本文对63个公开数据集进行全面汇总，覆盖分类、检测、分割、视觉语言任务，发现现有数据存在类别种类单一、标注粒度不够、多模态支持薄弱等问题。

就模型层面而言，本文调研了137个深度学习模型，梳理了其架构演进路径，并揭示了当前在网络架构创新、监督形式探索、多任务融合等方面仍有巨大空间。

02.

ColonINST：多模态基准

为了解决多模态结肠镜领域发展滞后的问题，本文提出 ColonINST —— 首个面向结肠镜场景的多模态指令微调基准，为开发结肠镜领域的视觉语言模型奠定了数据基底。

数据多样性与层级结构的系统整合

为增强社区协作性，本文从 19 个公开数据集中进行筛选、重构，系统整合出超过 30 万张图像，并引入根类别、父类别、子类别三级类别结构，覆盖从病灶到器械等62类广泛目标，形成层次化的标注体系。

多模态任务与指令驱动对话构建

本文还引入 GPT-4V，基于类别信息与任务目标设计提示词，自动生成专业且细粒度的图像字幕，形成医学语义丰富的描述。随后，本文将图像、字幕、标签与任务目标融合，生成 45 万条指令对话样本，支持图像分类、指称表达生成、指称表达理解以及字幕生成四项核心任务。此外，为增强模型泛化能力，本文为每项任务设计五种问题模板。

03.

ColonGPT：多模态专家模型

尽管现有多模态大模型在通用场景中表现优异，但在高专业度的医疗图像任务中表现远未达标。例如，LLaVA 和 LLaVA-Med 模型均未能正确识别出结肠镜图像，而ChatGPT甚至无法准确理解人类指令。因此提出了 ColonGPT —— 面向结肠镜的视觉语言对话专家。

设计理念

ColonGPT 采用标准的视觉语言架构，包含文本分词器、视觉编码器、多模态适配器以及自语言模型四个模块。在多模态适配器设计上，本文引入多粒度图元池化结构，通过层次化特征整合与降维处理，将图元数量减少 66%，极大提升了模型效率与训练速度，仅需要7小时即可完成训练，方便后续版本迭代和快速改进。

多维度基准测试

本文将 ColonGPT 与八种主流模型（六个通用模型和两个医疗模型）进行了对比评估。对于分类任务和指称表达生成任务本文使用准确率来计算正确预测的比例。对于指称表达理解任务，本文使用 IoU 来衡量定位精度。此外本文通过验证图像中可见的解剖结构、类别名称以及临床描述的正确性来分析字幕生成任务。结果表明，ColonGPT 在所有可量化任务上均取得最佳表现，在未见样本中也展示出优越的泛化能力。

04.

经验教训：迈向智能外科助手

拥抱数据稀缺：

扩大数据规模是提高特定领域表征能力的一种简单粗暴的方法，例如使用合成数据来弥补公共数据池不足的问题，或者通过联邦学习，使多个机构在不共享原始数据的情况下协同训练。此外，通过多样化人机对话形式也可以有效地训练适用于结肠镜检查应用的人工智能专家，包括扩展问答对、更多可执行的任务、推理链条数据等。

效率至上：

未来的工作应主要围绕优化模型参数效率展开。本文通过改进多模态适配器结构在减少冗余的同时不向模型性能妥协。此外，也可以使用轻量化语言模型作为核心架构，特别在医学数据稀缺场景下有意想不到的效果。

改善空间感知能力：

当前语言模型在视觉目标定位上仍存局限（如指称表达理解任务中IoU常低于50%），这可以通过在指令微调之前对多模态空间进行预训练和预对齐来改善。此外让视觉部分和语言部分各司其职也是一个有前景的方案，例如采用并行框架同时生成分割掩码与语言描述。

持续学习与适应性进化：

为确保模型的长期有效性，其必须具备持续学习与自我调整的能力。例如通过反馈驱动的学习机制实现模型的动态优化，也可以借助少样本学习技术促进模型在新任务上的快速适应与跨领域知识迁移的能力。

视觉语言导航：

最近的视觉语言导航研究展示了将多模态数据整合到动态决策和规划任务中的潜力。例如OpenVLA探索了微调视觉语言行为(VLA) 模型的有效方法，LH-VLN重构了视觉语言导航任务的范式——由单个任务转向连续决策，由人工规划转向自主推理。这为未来开发智能外科助手提供了可能。

研究团队的长期愿景是开发一个通用智能结肠镜检查助手——一个能够理解实时影像、患者病历、生理参数等多层次医疗数据、制定自适应治疗方案，并具备自动执行手术能力的人工智能系统。它将不再只是一个工具，而是一位积极可靠的医疗合作伙伴。研究团队致力于通过持续努力，为多模态医疗AI的未来奠定坚实基础，推动医疗过程向智能化、普适化方向不断演进。

编辑丨赵雅鑫

----- END -----

wisemodel相关：

系统升级：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看