随着生命科学的快速发展,组学(omics)测序技术层出不穷,为我们理解复杂的生命体提供了支撑性的技术手段。而人工智能(AI)技术的突飞猛进,又将有效助力生物医学研究,形成“AI for Science”的交叉研究新范式。从AlphaGO到AlphaFold 再到ChatGPT,颠覆性的AI 技术和应用不断涌现。传统生命科学研究的范式正在从研究单个基因/蛋白质的还原论范式,向依托于大规模组学测序技术研究基因组/蛋白质组的数据驱动范式转变,而AI 正是推动这场范式变革的重要驱动力之一。可以看到,生命科学领域的科学研究正在经历一场风暴,风暴源于狂飙突进的人工智能技术,“拥抱”还是“逃离”,成为摆在每位教学和科研工作者面前的选择题。
《组学机器学习》(刘琦著. 北京:科学出版社,2023.10)一书撰写的初衷,便是希望帮助读者做好这道选择题。
← 左右滑动查看目录→
本书的起笔,源于作者在同济大学所开设的“机器学习理论与方法”教学课程,以及所进行的科研实践。我们注意到机器学习课程一般开设在计算机相关专业,组学数据分析一般开设在生命科学相关专业,但是二者鲜有结合。面向生物医学专业,响应国家发展“人工智能+”及“医工结合”的重大战略需求,依托于同济大学生命科学与技术学院生物信息学本科专业的相关课程设置,我们进行了组学机器学习相关内容的系统梳理和建设(https://github.com/Machine-Learning-Class/ Machine-learning/ blob/master/README.md)。本书即该教学课程和相关科学实践的延伸。虽然“AI + Omics”已逐渐成为生物医学研究的利器,但国内外尚缺乏组学人工智能交叉领域的教材或著作,故本书在该领域进行了有益的尝试和探索。本书旨在面向组学数据挖掘的特点和挑战,进行组学机器学习相关范式、理论、方法的系统总结和介绍,并结合作者团队多年的科学研究工作,进行相关应用案例的展示,以期帮助读者了解这一激动人心的前沿领域,抛砖引玉,激发读者举一反三,进行深入的思考。
同济大学刘琦教授团队多年来在这一领域开展了大量出色的研究工作,取得了多项领先成果,积累了很多深刻的认识和经验。我很高兴得知刘琦教授基于他多年工作和国内外最新进展,写成了这本《组学机器学习》。该书结合一系列代表性案例阐述了组学机器学习中表征学习、弱监督学习和联邦学习等的基本原理和典型解决方案,为该领域提供了一本兼顾机器学习与生物组学内容的优秀著作。
生物组学数据的机器学习包含的方面非常广,该书虽然选择只在其中一部分有代表性的问题上进行阐述,但足以窥见整个领域的重要特点和核心思想,相信该书对于广大生命科学和机器学习研究者都将有很大的借鉴和启发意义。通过该书,读者应该认识到,面向生命科学的人工智能,与现在最成功的面向计算机视觉、自然语言处理和机器博弈等领域的人工智能相比,有很多独特的挑战。其中最大的区别是:在人工智能取得重要突破的这些领域,人们希望人工智能完成的任务和具有的能力是人类本身能完成和已经具备的,虽然在其中一些任务上人工智能已开始超越人类;但在生命科学领域,以组学数据分析为例,人们获取组学数据的目的是理解人类现在尚不能理解的原理和规律,人类本身并没有能力仅依靠自己的知识完成对如此大量、高维、高噪声和不完整数据的分析,我们希望人工智能帮助完成的是人类本身并不能完成的任务。我想,这应该是面向生命科学的人工智能所面临的最大挑战。该书给出的成功案例让我们看到了组学机器学习的巨大潜力,但这仅仅是人们用人工智能帮助探究生命奥秘的开始,更多问题还在等待我们去突破。相信通过生命科学和智能科学与技术的不断深度融合,机器学习将会在生命科学探索中发挥更大的作用,而面向生命科学的机器学习研究也将成为智能科学与技术发展的重要推动力,让我们一起为之奋斗。
张学工
清华大学教授
2023 年9 月20 日于清华园
另外,为帮助读者建立组学机器学习这一交叉领域所必需的知识体系,本书对于撰写内容和风格进行了精心的规划。本书避免对组学测序技术本身或者机器学习的具体模型进行繁复的介绍,而是力求对“组学+机器学习”二者结合的范式和思想进行总结、梳理,力图体现作者对于该领域的若干思考。
▲ 本书组学机器学习研究范式总述图
全书在撰写过程中力求保持统一风格,每一章均按照特定机器学习范式的“适用场景”—“理论思想”—“组学应用概述”—“研究案例”—“案例小结”五部分展开,旨在结合组学数据特点对相应的机器学习范式进行介绍,并展示相应的组学挖掘研究案例。这些案例均体现了作者团队多年来在组学数据挖掘领域进行的有益尝试,主要隶属于精准医学方向,涉及靶点识别、药物发现、个体化用药、免疫治疗及基因编辑等多个具体领域。
当收到该书的样稿时,我内心的兴奋和惊喜不言而喻——一方面,该书填补了人工智能技术和生物组学技术交叉领域的空缺。另一方面,我欣慰地看到作者团队多年来一直坚持和聚焦于组学人工智能理论和方法的开发以及生命健康领域的应用和转化。作者曾在我于香港科技大学的课题组从事人工智能方向的博士后研究工作,之后在迁移学习、联邦学习等人工智能技术的开发和生命健康领域的应用方面进行了系统的探索,取得了若干重要的研究成果,而该书的内容,均展现了这些重要的人工智能范式在生命健康领域的典型应用。我注意到该书的整体编排循序渐进,且保持了统一的风格,各个章节之间具有很强的逻辑性和系统性。其内容有别于传统的机器学习专著,避免对于具体的机器学习模型进行繁复的介绍,而是关注于对于重要的人工智能范式进行系统的梳理和总结,同时紧密地联系了生命健康领域组学挖掘的具体案例,以兼顾不同专业背景读者的需求。总的来说,该书不仅立足于当下,为读者清晰梳理了人工智能和组学挖掘的基本理论、方法和范式,帮助读者建立组学人工智能的系统图景;同时也展望未来,为读者介绍和展示了当前组学数据驱动的生命健康研究的前沿方向和前沿案例,助力读者进行更加深度和广度的思考和探索。
在人工智能技术全球快速发展的当下,利用人工智能技术推动各个学科和行业的发展是未来全球科技创新和产业变革的大趋势,这其中生命健康相关领域将占据重要的一席之地,需要领域内所有相关人员的不断努力。在此背景下,该书的出版可以说是恰逢其时,我相信并期待它将对于“AI for Life Science”这一领域产生广泛的影响,为推动生命健康领域的人工智能技术的发展和应用发挥重要的作用。
杨 强
微众银行首席人工智能官
加拿大工程院及加拿大皇家学院院士
2023 年10 月1 日
最后,让我们一起走进“组学+智能”这一激动人心的前沿交叉领域。人工智能驱动的组学数据挖掘,将是“碳基智能”和“硅基智能”的完美融合,我们期望为读者展现这二者融合的美丽风景,也希望和读者一起在其中留下绚烂的一笔!
本文摘编自《组学机器学习》(刘琦著. 北京:科学出版社,2023.10)一书“前言”“序一”“序二”,有删减修改,标题为编者所加。
ISBN 978-7-03-076151-4
责任编辑:罗 静 刘 晶
人工智能驱动的组学挖掘是数据驱动的生物医学研究的支撑技术。组学测序技术逐步向多尺度、跨模态、有扰动等方向发展,但体现出的高维度、高噪声、多模态、标记稀缺等特点,成为制约其有效挖掘的瓶颈。本书面向生命组学数据特点,较为系统和深入地对组学机器学习的主要研究范式、适用场景、分析方法、理论思想进行介绍。结合相应组学挖掘的具体研究案例,向读者展示组学人工智能驱动的生命健康交叉研究的绚烂图景。
本书适合生命科学、医学、生物信息学、计算机和信息科学等相关交叉专业的高年级本科生、研究生,以及人工智能领域的科研人员和产业人员参考使用。
(本文编辑:刘四旦)
一起阅读科学!
科学出版社│微信ID:sciencepress-cspm
专业品质 学术价值
原创好读 科学品位
科学出版社视频号
硬核有料 视听科学
热门跟贴