打开网易新闻 查看精彩图片

当前,医疗大模型正被探索应用于疾病预测、辅助诊断、个性化治疗、药物发现等各细分领域,但它也面临着准确度、可解释性、数据隐私、医学伦理等问题。据不完全统计,目前全国有约4000个医疗垂类大模型,如何判断它们是否安全、合规、高效?

今天,由上海人工智能实验室牵头建设的上海市医疗大模型应用检测验证中心在沪成立。这是国内首个面向医疗大模型应用评测和验证的平台,华山医院、 中山医院、瑞金医院等12家医疗机构成为中心首批验证单位。

检测中心成立的意义何在?专家表示,大语言模型的改进十分依赖反馈,评测能够让大模型识别短板,加速进化“飞轮”旋转,打通 “训、评、用一体化”链路。

评测是大模型闭环不可或缺的一部分

如何为层出不穷的医疗大模型“打分”?得益于上海人工智能实验室在全球首个医疗基础模型群“浦医”、医疗大模型评测体系“MedBench”等研究的长期技术积累,市医疗大模型检测中心目前已支持14个应用场景评测,涵盖医疗大模型评测的全链条。

打开网易新闻 查看精彩图片

开启评测的第一步是资质核对环节。用户提交评测申请时需录入模型备案信息,平台会自动查询并检测网信办备案真实性。其中,基础大模型甄别采用了上海人工智能实验室的专利技术,在不添加水印和保持大语言模型通用能力的同时,使用基于表征的指纹识别技术追溯大语言模型的基模型来源,保证大语言模型来源安全。

安全评价分为通用安全问题和医疗伦理安全问答,只有通过两项安全基准线,才可进入下一步评测。模型应用服务的时效性评价包括响应时间、吞吐量、计算效率等,性能评价则依据场景应用需求,结合临床医学专家讨论制定评测集,考察应用服务对评测集应答的能力。

大模型评测为何重要?上海人工智能实验室青年科学家徐捷说,训练、评测和使用共同组成了大语言模型的闭环,因为大语言模型训练非常需要“正反馈”,评测可以清晰识别模型短板,进而通过有针对性地投喂语料,帮助大模型实现快速迭代。

瞄准模型多样化训练需求,上海库帕思科技有限公司联合上海市卫生和健康发展研究中心、上海市中医文献馆,共同发布了上海市卫生健康行业语料库1.0版,通过构建高质量语料、创新语料工具链服务及分发模式,为中医药及健康管理领域医疗大模型的训练优化提供数据支撑。

市经信委主任张英表示,医疗大模型应用检测验证中心的启用,将能够对医疗大模型的全链路进行强化管理,也为进一步推动医疗人工智能技术与临床实践的深度融合提供了平台保障。

基础大模型上“长”出更多好产品

垂直化、专业化、场景化、细分化,是人工智能落地医疗场景的重要方向。近年来,上海人工智能实验室与各场景应用方、生态公司紧密合作,在基础大模型与场景融合上展开积极探索。垂类大模型“浦医智捷”以及基于书生大模型的首批五大医疗示范应用昨天同时发布。

“浦医智捷”以书生大模型为基座,通过万亿条约30TB高质量医疗语料训练而成,覆盖医疗服务管理、基层公卫服务、健康产业发展、医学教学科研等多种能力。不同参数版本可供用户根据场景类别和应用领域进行选择。

五大医疗示范应用囊括了疾病筛查与管理、临床诊疗辅助、智能科研辅助、智能教学辅助、智慧管理等方向,覆盖诊前、诊中、诊后及管理的各环节。其中,儿童常见眼病筛查与管理系统由上海人工智能实验室联合上海交通大学附属第九人民医院、上海交通大学及医利捷(上海)信息科技有限公司打造,仅靠一张眼部正面照片就能开展全方位的儿童常见眼部疾病筛查,为基层义诊提供技术支持。肺部结节与早期肺癌诊疗服务平台由实验室与同济大学附属肺科医院、同济大学合作,采用胸部CT照片生成“数字肺”,并可通过大模型生成智能化报告。

在临床研究和教学方面,实验室联合上海临床创新转化研究院联合开发了“杏林智研”临床研究大模型及科研助手产品,可用于论文精读等场景,助力高质量临床试验创新转化。

上海人工智能实验室主任、首席科学家周伯文表示,“浦医智捷”等医疗大模型及首批医疗示范应用是实验室与医疗界协同创新的重要成果,未来将继续与各方携手,基于书生大模型强大的通用性能,深化医疗专用模型的纵深能力,共同探索智慧医疗的全新落地形式。