打开网易新闻 查看精彩图片

医疗行业自从大模型问世以来就被视为最有可能有丰富场景落地的一个行业。且医疗是立国之本,也是民生之本,如果能用大模型技术赋能医疗行业,一方面,降低原本高昂的医疗成本,减轻医保与患者的压力;另一方面,大模型的加持下,也让区域之间的医疗资源趋于平衡,让更多人享受到原本享受不到的高质量医疗资源。

所以,可以说大模型+医疗的场景是大模型最值得期待的应用领域之一。

大模型乘上基因检测风口

随着居民生活水平的提高和保健意识的增强,基因检测作为健康管理的先进手段和新兴方向,其市场需求持续增长。

基因检测技术是一项前沿的科学技术,其原理在于对被检测者的细胞内的DNA分子信息展开详尽的分析,深入剖析其中所包含的基因种类、基因缺陷以及它们表达功能是否处于正常状态。通过这种检测手段,人们得以洞察自己的基因图谱,揭示潜在病因,或是预测身体可能面临的某种疾病风险。

据中研普华产业院研究报告显示,中国基因检测市场规模从2019年的149亿元增长到2023年的297亿元,年均复合增长率为14.8%。预计到2024年,市场规模有望增至335亿元。

在国家层面,国家发改委编制的《“十四五”生物经济发展规划》中,明确指出了基因检测技术的发展方向与目标,其中涵盖了提升基因检测技术的普及率以及鼓励生物领域第三方服务机构的发展等重要内容。这一规划为基因检测行业的稳健前行提供了清晰的蓝图。

以基因测序为例,作为基因检测基础之一的基因测序的临床应用,可以使一些分子机制已知的罕见病的检测周期缩短至数周。然而要大规模、快速而准确地从海量的基因组变异中识别出致病因素,仍然是一个挑战。基于基因检测大数据和以AI算法为核心的智能化筛选工具的开发,正在加速相关罕见病的诊断进程。

过去的几年间,医学领域一直在尝试通过数字技术的手段,提高基因测序的效率和准确率,但效果并不是很明显。从基因测序操作过程上看,其过程既是知识密集型、又是劳动密集型的工作,往往需要遗传分析专家的校准,耗时耗力的同时,也高度依赖于基因型与表型关联数据库的全面性和患者临床表型描述的精准度。

看到这些需求点,几乎与大模型技术所能提供的能力完美契合。通过大模型技术,可以对海量的基因数据进行深度挖掘和分析,模型可以通过海量专有数据进行训练和调优,且又能在短时间内分析、处理海量数据,快速得出结果,提高基因测序的准确性和效率。同时,大模型技术还可以与临床诊疗相结合,为医生提供更加精准的治疗方案。

大模型的出现也迅速得到了基因检测垂直领域的高度关注,如近期沙特阿拉伯阿卜杜拉国王科技大学和美国费城儿童医院的两个研究团队先后评估了大型语言模型在罕见遗传病诊断中进行基因优先排序的实用性。

美国费城儿童医院的研究团队的结果表明尽管目前LLMs在生成准确的候选基因预测结果方面落后于传统工具,但随着模型规模的增加,它的性能有望进一步提高,尤其在处理非结构化文本数据时,LLM展现了一定优势。

沙特阿拉伯阿卜杜拉国王科技大学的研究团队则通过真实的临床数据研究,展示了LLMs在基于表型的基因优先级排序任务中,不仅能够提供和传统工具相媲美甚至略优的基因排名,还能生成解释性的结果,有助于更高效的揭示基因与疾病之间的复杂联系。

多模态模型+垂直领域,开启基因检测新范式

显然,大模型在医疗领域,尤其是基因检测方面展现出了惊人的能力,而上述两个成功的案例也让大模型在基因检测领域落地增加了不少信心。

近日,华大集团在新品发布会上就提出了“生成式生物智能范式GBI ALL(Generative Bio-Intelligent)”的崭新理念,并正式发布了面向临床的基因检测多模态大模型GeneT(Genetic Transformer)。

华大基因CEO赵立见表示,随着测序技术的飞速发展,当每个人都有机会获得一份专属的个人全基因组数据时,如何从海量的生命数据中高效、精准地解读生命奥秘,已成为行业关注的焦点。“SEQ ALL将加速人人基因组时代的到来,而华大基于基因检测大数据,结合先进的AI算法,提出的生成式生物智能GBI ALL(Generative Bio-Intelligent)创新范式,将会助推精准医学的全面提升。”赵立见强调。

为了更好地了解大模型在基因检测方面的应用,钛媒体APP独家对话了华大基因IT副总监梁伦纲,揭秘华大基因在基因检测领域的应用尝试。

此次华大基因发布的基因检测大模型产品与目前市面上常见的行业大模型不同的是,采用了多模态大模型进行产品的打造,而目前市面上较为常见的是仅应用大语言模型进行模型打造。梁伦纲告诉钛媒体APP,之所以选择相对算力门槛和应用门槛都较高的多模态大模型作为基因检测大模型产品的“基础”,主要有两个原因。首先,在传统的基因检测过程中,需要人工解读及复核大量信息,其中部分结果复核需要将数据可视化成图片进行查看,通过可视化的方式,便于确认检出基因位点的质量,而应用多模态大模型就能通过结合文字及图片的综合识别技术,解放更多的人力,增效的效果更为明显。

另一方面,在梁伦纲看来,多模态大模型也是未来生成式AI应用的发展趋势,而早早在多模态大模型领域的布局,也让华大基因能够在生命经济发展初期阶段就能“抢得先机”,“选择多模态大模型也是我们在未来整个大健康场景下应用大模型能力的一项布局”,梁伦纲如是说,“在大健康的场景下,有大量多组学的场景,比如生理、生化、免疫等检测结果,加上医学影像,再结合基因组等多组学的结果,能够整体提升检测的准确性,这也是为何我们在一开始就选择多模态大模型的原因之一。”

值得注意的是,尽管多模态大模型技术在算力和应用方面的门槛较高,但华大基因通过一些技术手段,让这个门槛得以降低,梁伦纲对钛媒体APP表示,因为基因检测的特殊性(属于垂直行业领域),有些场景下并不需要参数过大的大模型产品,一些小参数语言模型的产品就能够满足生产过程中的需求,“现在,华大基因就采用了一些十几B参数的小模型”,梁伦纲指出,“虽然在训练过程中会比较消耗资源,但投产之后的模型推理成本还是非常低的。”

据钛媒体APP了解,目前基因检测多模态大模型已经完成了预测试,具备了随时投产的能力,“在预测试环节中,在不干预日常临床生产的前提下,我们测试了超过1万例基因组检测,致病点位召回率达到了99.8%的水平。”梁伦纲指出。

当然,在测试的过程中,华大基因也发现了一些模型本身还有待优化的部分,不过与基于传统算法的检测操作相比,应用多模态大模型后的检测的效果要远远超过了传统算法。

罗马不是一日建成的

一款好用的行业大模型产品不是短时间内可以打造完成的。这个过程中,除了算力、算法、数据三大要素是必不可少的存在之外,还需要“按需制宜”,根据自身切实需求打造产品。

华大基因的基因检测多模态大模型产品底层架构采用了成熟度极高的Transformer架构,自研打造大模型产品,但在过程中也根据发现的诸如预训练环节微调能力不足等问题,融合了一些开源模型的能力,两条不同的技术路线,共同推进下,才诞生了当下我们看到的基因检测多模态大模型成品,而这个成品也还在不断“进化”中。

当然,在模型整体“建设”的过程中,华大基因也遇见了很多的问题,梁伦纲告诉钛媒体APP,对于基因检测行业而言,对于召回率的要求极高,临床级产品的召回率要求达到99.99%,所以对于模型的准确性也就提出了更高的要求,这也是华大基因首要面临的挑战。

梁伦纲介绍到,为了解决这个问题,华大基因一方面凭借多年来在基因检测领域的积累,利用了大量高质量的行业专有数据不断对模型进行微调和优化,另一方面,通过公共数据集上的数据和行业数据,进行数据合成,合成高质量的数据用于模型的训练,“这些数据不仅来自公共数据集、华大基因及合作方的专有数据集,还有上百万篇来自行业的专业文章数据集,经过数据清洗,逐渐构建了华大基因的数据库”,梁伦纲强调,“而这个过程,也不是一朝一夕可以完成的,是基于华大基因多年来的行业积累。”

众所周知,数据是大模型的“养分”,高质量数据的获取当下已被看作是行业大模型能否“照进现实”的重要因素之一,这点在梁伦纲看来亦是如此,他告诉钛媒体APP,华大基因在解读基因检测领域大量公开数据集,并进行训练的过程中,最大的一个挑战就是——很多数据集是分散的,存在于不同的数据库中,如何将这些数据“凑”在一起,并确保核心数据的质量,是基因检测多模态大模型落地过程中首要解决的问题。“我们一方面整合了来自不同数据库、数据集的数据,生成高质量的合成数据,另一方面,通过不断对提示词进行更新,进一步提升了模型‘理解’人类思考过程的能力,最终才得以推出基因检测多模态大模型的初代产品。”梁伦纲指出。

不过基因检测多模态大模型的推出在梁伦纲看来是“起点”,而不是“终点”,因为对于基因检测多模态大模型的优化是一件持续性的事,“未来,我们还是围绕两个点对模型产品进行调优。一方面是我们认同‘模型的参数越大,能力越强’这个说法,所以会持续提升模型参数,推出更大参数的模型产品”,谈及未来的布局时,梁伦纲指出,“另一方面,数据是大模型关键‘养分’,我们会结合更多的公共数据集和高质量的合成数据,在确保合成数据合理性的前提下,不断丰富模型数据量,提高模型准确性。”

布局大健康全产业

通过不断的“喂”给大模型产品养分,模型的能力越来越强大。而基因检测多模态大模型也只是华大基因众多布局的一环,就在前不久的发布会上,华大基因还提出了生成式生物智能范式GBI ALL(Generative Bio-Intelligent)的理念,并提出了“13311i”智能化疾病预防系统。

对于GBI的理念,梁伦纲解读表示,GBI理念可以看作是一个华大基因在大健康领域和健康领域布局产品的“基础”,“GBI是我们整个健康产品布局整体的指导思路,也是一套完善的方法论”,梁伦纲指出,“基因检测多模态大模型GeneT就是基于这套方法论衍生出来的,基于大模型技术的具体技术体现,也是华大基因核心数据能力的体现。”

如果说GBI理念可以看作是华大基因在大健康领域的核心发展思路的话,那么“13311i”智能化疾病预防系统就是基于这个思路衍生出的华大基因在大健康领域未来整体业务布局的“版图”。

“13311i”智能化疾病预防系统包括了“1”个人的全基因组、“3”个常规检查(血尿便)、“3”个放射性检查(B超、CT、核磁)、“1”个腹腔镜、“1”穿戴式设备(智能手表)、生成一个“i”健康指数(Life Index)。

据梁伦纲介绍,华大基因自研的“13311i”智能化疾病预防系统整合了基因组、转录组、细胞组等多组学、多模态数据,形成健康指数,通过全自动化、模块化和自主可控的生命科学“13311i”数字化工厂,形成了完整的大健康领域的生态、产品的闭环,“ ‘13311i’智能化疾病预防系统将面向公众,提供更加个性化、精准的健康量化评估,实现对疾病风险的智能化精准防控。”梁伦纲如是说。另一方面,“13311i”智能化疾病预防系统也是华大基因在响应国家精准医疗相关政策的一个前沿布局。

除了在“高精尖”医学研究方面的布局以外,依托“13311i”智能化疾病预防系统,华大基因还面向普通用户端推出了ChatGeneT基因组咨询平台。梁伦纲向钛媒体APP介绍,该平台旨在拉近专业知识与公众之间的距离,通过与基因检测多模态大模型相同架构的大模型,搭建了智能化的全基因组问答系统,为用户提供便捷、准确的基因组解读服务,“普通用户可以上传自身的基因检测报告到平台上,通过文字交互的方式,了解到相关疾病的遗传风险及预防建议。”梁伦纲介绍道。“未来,我们会将大模型的能力充分赋能到民生筛查方面,用以提升沟通效率及患者回访监测上,提高回访监测的准确性和效率的同时,提升服务品质。”

可见,当下这一切仅仅是华大基因的“开局”。面向未来,华大基因还在通过不断的高质量数据的整合,在增强大模型能力的同时,一方面聚焦在生育、肿瘤,以及防感染等领域,另一方面,将大模型技术结合更多现有业务场景,让行业大模型的能力真正赋能到医疗产业中。(本文首发于钛媒体APP