“生物信息学是一门快速发展的交叉科学,但是无论在科研领域还是工业界,生物信息学往往都被视为一种工具。在科研中,它被当作一种数据分析方法;在工业界,它最初也是普遍通过科技服务的形式产生经济价值。生物信息学的创业之路不易,把握合适的时机很重要,同时还要兼顾数据与应用场景。”

作者 |吴彤‍

编辑 |麦广炜

精准医疗,是以个体化医疗为宗旨的新型医疗模式。它考虑了个体在遗传、环境和生活方式上的差异,通过基因组、蛋白质组等生命组学技术,结合多维度的生物大数据整合,精确发现疾病的检测标志物和治疗靶点。

生物信息学是实现精准医疗有效落地的关键因素。然而,生物信息学企业的商业化并非易事。

它要求创业者不仅要掌握前沿的算法技术,还需在市场调研、数据合规性、数据安全、产品用户体验等多个维度进行深入的思考与积累。

张鑫磊博士,作为北京携云启源科技有限公司(下称“携云启源”)的CEO,正引领企业在这一领域进行探索与实践。

实际上,这家公司早在2018年成立,却鲜少对外宣传。

究其原因,是因为生物信息的商业化落地,绝不仅仅只是数据分析这一个环节,上游的生物样本库、专病数据库如何建立,新发现的分子标志物和靶点怎么和下游的药械 企业对接,整个过程实则环环相扣。

真正的价值来自于技术的深耕和闭环的完善。只有当内部的数据流转和分析能力形成一个高效、安全且符合临床需求的闭环时,公司才算是迈出了生物信息商业化的第一步。”张鑫磊博士表示。

换句话说,这便是携云启源提出的“数据驱动的医工转化”模式。从一份血液样本的管理,到临床数据的整合,精准医疗数据的产生,再到疾病的检测,整个流程都要参与进去,做一站式的服务。

张鑫磊博士之所以有如此的战略眼光,实际上要追溯于他学生时代的研究经历。

他的学术生涯始于南开大学物理学院生物物理专业,但他很快被生物信息学的魅力所吸引,加入了中国科学院生物物理研究所蒋太交教授团队。在研究所读书和工作期间,他参与了多项重要课题,包括基因组和蛋白质组的大数据分析平台构建,以及流感病毒的监控和演化规律研究。

这些经历为他日后的创业打下基础,也悄然塑造了他的科研观。

“生物信息学不仅是科研手段,我们开发算法更希望能够解决一些与健康直接相关的实际问题,比如精准医疗和传染病防控等。”

然而,即便拥有长期的学术熏陶和明确的创业愿景,他的团队也不得不面对生物信息学创业的多重挑战。诸如技术门槛高、数据获取成本高与管理难度大、法规遵从性要求严格、市场教育需求迫切,将问题的出发点指向一处:组建一个包含生物学家、数据科学家、软件工程师的跨学科团队。

现在,随着团队建设、服务闭环和市场条件的逐步具备,携云启源已经为多家顶级医院和国家临床医学中心建立了精准医疗数据基础设施和临床决策支持系统。在生殖衰老、过敏性疾病、自闭症、儿童肿瘤等专病方向上,已建立国内最大、最全的样本和数据库资源,在数据源头积累上也打造了难以被替代的竞争壁垒。

张鑫磊透露,作为一家AI医疗初创企业,在很快实现盈亏平衡之后,公司预计今年能实现近千万元的利润。但这并非终点,“长期来看,我们希望建立一个数据驱动的转化生态系统。”

确切来说,这是一个系统工程,需要多方协作,正如携云启源上游有用于生物样本存储的低温样本存储系统,下游动则有分子诊断和制药公司协作,在一些专病领域中,也会通过将新标志物或新药靶点专利授权给第三方机构,联合开发产品。

术业有专攻,对每一个有共同愿景的合作伙伴保有尊重,已然成了当下携云启源的价值观所在,以及商业模式能够落地的基础。

近期,2024年度「第二届生物信息与转化医学大会」落下帷幕。本届大会以 “人工智能时代的转化医学”为主题,由北京携云启源科技有限公司承办,旨在促进临床工作者与科研工作者的沟通与合作,加大科研单位、临床医院及生物医药科技企业间的有效联动。同时,这也是打造数据驱动的医工转化生态的一次卓有成效的交流平台。

借此契机,雷峰网与携云启源CEO张鑫磊进行了深入对话,以下为对话全文(经编辑):

从物理学到生物物理学,再到生物信息学‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

雷峰网:世纪初,您本科从物理学转为生物物理,又在博士选择了生物信息学专业,为什么二换专业?

张鑫磊:我本科(2002年~2006年)是南开大学物理学院的物理学专业,但我在大二就转到了生物物理专业。

主要的原因是在大一寒假,我阅读了罗静初老师翻译的《生物信息学概论》,这让我对计算生物学产生了浓厚的兴趣。当时我个人认为,基础物理学的研究已经达到了一定的高度,想要取得新的突破并不容易。

在生物学领域中,数学以及计算机技术的应用才刚刚起步。为了更加深入地从事这方面的交叉科学研究,我决定在硕士和博士学习期间(2006年~2011年)转向生物信息学领域。

蒋太交老师2005年从麻省理工学院回国,加入中国科学院生物物理研究所,他是最早一批回国的生物信息学研究者之一。我觉得这是一个很好的机会,便与蒋老师进行了沟通。他也非常鼓励具有数理专业背景的学生从事生物信息学研究,我就顺利地加入了他的实验室。

雷峰网:过去进行过哪些研究课题,它们如何塑造了您的专业技能和研究视角?

张鑫磊:在生物物理研究所,我参与了众多课题,大致分为两类:

一类是与我后来创业密切相关的精准医疗方向,即基因组和蛋白质组的大数据分析平台的构建以及相关的算法研发。我们实验室可以算是国内最早将人工智能算法应用于生命组学研究的团队之一。

另一类是蒋老师团队的代表性研究工作,即流感病毒的监控和演化规律研究。这部分虽然不是我牵头的工作,但也积累了很多自主研发算法的经验,实验室的研究成果曾被评为“中国科学十大进展”之一,并荣获中华医学会的一等奖和二等奖。

通过这些研究我有两个感悟,一是重视数据、二是重视应用场景。

对于我们这些专注于从事算法研究的人来说,算法本身更像是是一种技能,是相对而言更容易把握的一个环节,但对数据的把握能力往往更加关键。

国内真正的AI医疗场景落地,无论是公共卫生领域的传染病监控,还是医疗领域的多项应用,都需要高质量的数据进行支撑,然而在数据管理基础设施方面还非常薄弱,数据源头的质量保障不足,导致后续开发的AI模型如空中楼阁,不能产生实际价值。

另一方面,我们在选择课题方向时,可以有偏生物学机理机制的研究,也有偏应用的研究。我个人更倾向于开发算法应该能够解决一些关乎疾病诊断与公共卫生的实际问题,比如精准医疗和传染病防控等方向,这让我更能体会到所从事数据和算法工作的目标,在过程中也更容易产生兴趣和动力。

深度的“应用科学”,不只在学术界

雷峰网:什么原因促使您在2018年创立携云启源,而非继续在学术界发展?

张鑫磊:由于家庭的一些综合原因,我没有在博士毕业第一时间选择出国。同时,我认为自己所从事的方向,是有很大的应用需求,所以觉得产学研转化也是一条值得尝试的路径。2011年到2015年,我在中国科学院生物物理研究所工作,任助理研究员,这期间我参与了很多转化方面的课题,与一些IT企业合作搭建生物信息平台,尝试生物信息学来实际应用中的各种可能。

雷峰网:公司自成立以来,有哪些重要发展阶段和关键项目?

张鑫磊:主要的里程碑事件包括公司2018年在北京的成立。不过最初的三年 ,我们是一家IVD企业的全资子公司。2021年12月,在母公司股东的支持下,我们进行了一次剥离,开始了独立运营。我们也迎来了一个快速发展的阶段,人员规模从最初的十几个人开始扩充。公司独立初始,也遇到了资金短缺的困难,感谢伽利略资本对我们持续的关注,在2022年3月获得了种子轮融资,使得公司能够顺利启航。2023年度的第三季度,我们完成了一轮由伽利略资本和零以资本共同领投的天使轮融资。尽管目前整个医疗创投行业,在前几年的热潮之后已经有所降温,但我们依然获得了新老股东的认可和帮助。

然而,作为一家数据公司,软件产品本身只是对数据源头进行质量控制的一个基础,数据能否产生衍生价值,这才是最关键的。

我们参与的重要项目很多,目前已经与八十多家三甲医院合作,建立了数百项精准医疗信息化系统。其中,我们与中日友好医院、北京协和医院、同仁医院这三家医院的合作中,更有代表性意义,我们不仅部署了平台软件,更从积累的样本和数据中发掘出了新的疾病检测分子标志物,这也是“数据驱动的医工转化”模式得到的实际应用和验证。

此外,我们还承担了一些具有里程碑意义的大型生物信息平台项目,如“慧眼蛋白质组学大科学设施平台”重要信息模块的开发建设。这是由贺福初院士团队牵头的蛋白质组学领域的重点项目,平台在推动基于蛋白质组学的精准医疗落地方面,打下了坚实的基础。

雷峰网:能详细介绍下你们的盈利模式和服务内容吗?当算法、软件系统以及一站式解决方案在内的服务,提供给临床客户时,带来了哪些实际效果?

张鑫磊:简单来说,我们将目前的盈利模式概括为---“精准医疗信息化”。精准医疗数据与传统的临床大数据相比,更强调了队列信息与生命组学数据的整合。

我们的服务是从样本收集、队列管理、实验管理到实验产生的生命组学数据的全流程管理和挖掘。主要分为两块:一是精准医疗数据的管理、二是数据的应用。

数据的管理,这是从“临床样本”到“专病队列”的全生命周期。

在做法上,我们首先建立样本库,管理医院中的血液、尿液、病理切片等生物样本。然后围绕特定的专病建立队列数据库,进而创建组学数据库。

在数据不断积累和挖掘的过程中,可以发现新的分子检测标志物、数字标志物,和新药的靶点。进一步就可以进行相关的成果转化,包括开发试剂盒通过LDT的形式在院内开展检测项目,申请体外诊断试剂的认证等。

总的来说,我们构建的是一个数据驱动的医工转化平台体系,旨在通过数据管理和挖掘,推动医疗科技成果的实际应用和产业化。

雷峰网:你们为多家顶级医院建立了精准医疗数据基础设施和临床决策支持系统。您能列举一个最典型的案例吗?

张鑫磊:在与北京协和医院妇科内分泌与辅助生殖中心的合作过程中,非常充分地体现了全生命周期的精准医疗数据管理与应用。

在与我们合作之前,该中心对女性生殖衰老样本和数据的管理方式较初步,主要基于人工录入数据表格的形式,效率很低。

经过与临床医生有效的沟通,以及持续的迭代开发。我们在中心不仅建立了高效的临床样本管理系统、多个跨中心的队列信息化系统,还建立了用于进行辅助诊断的组学数据应用平台。

在高质量数据汇集的基础上,我们还拓展了合作范围,与药厂开展联合研究。

以与扬子江药业的合作为例,我们利用更年期专病数据库对一款中成药进行了疗效评估和治疗机制研究,为临床医生在药物的合理使用方面提供了重要依据,也为药厂带来了新的研究视角和商业机遇。这个案例充分展示了精准医疗数据在有效管理之后,能够衍生出来的应用价值。

雷峰网:你们什么时候开始向医院推广这些服务?

张鑫磊:2018年和2019年,我们主要还是服务于科研客户,但开始进行临床市场的拓展。直到2019年底,我们才有了第一个生物样本库的临床种子客户。我们也越来越全面地了解了临床的需求,逐步开始考虑如何规模化地向医院推广我们的产品和服务。

雷峰网:你们在北京和长沙等地都设有办公地点,能否说一下不同区域的功能定位?以及能否介绍一下公司团队构成和专业背景?

张鑫磊:目前我们在山东设有子公司,在长沙和广州有分公司。北京的团队成员构成比较综合,涵盖了各个部门,但IT工程师相对较多。此外,由于北京丰富的临床资源,我们在这里与多个国家临床医疗中心建立起了具有示范意义的合作。长沙团队中90%的成员是生物信息工程师,专注于生物信息学算法和产品的研发工作。

CTO黄泽炽是生物学背景出身,凭借在算法方面的扎实基础,获得了2018年的全国人工智能金融算法大赛的个人冠军,他选择继续在生物信息与转化医学领域深耕,于2019年初加盟了公司,负责团队的研发工作管理。

生物信息主管苏明明本科是电子工程专业的,博士毕业于协和医学院。IT开发主管李红磊则是从研究生阶段才开始接触生物领域的IT专家,参与了多个国家级生物信息平台的直接开发工作。我们的技术团队是一支将信息技术和生物技术充分融合的团队,这支撑我们能够在生物信息创业道路上走得更稳健、更长远的重要基础。

不谋全局者,不足谋一域‍‍

雷峰网:在国内外,还有哪些公司与你们在业务范围上有所重叠?

张鑫磊:这个问题非常好。我认为,我们与国内其他公司最大的区别可能体现在---我们能够有效提供精准医疗数据的全流程解决方案。

例如,在临床机构广泛开展的生物样本库平台建设过程中,有很多家提供低温存储解决方案的企业。但是,临床客户面临的进一步问题是,除了购买超低温冰箱进行样本存储外,在投入了大量的人力和物力之后,还需要考虑如何有效地利用这些样本,发挥进一步的数据价值。

我们提供的不仅仅是基础设施建设,更重要的是下游价值的实现,包括临床科研、医工转化和辅助诊断等方面。我们现在与低温存储的龙头企业海尔生物也是战略合作方,在下游的数据管理与利用环节,提供完整的解决方案。

从全行业来说,实现数据驱动的应用转化,从最初的样本采集到最终的成果转化,需要一个系统性的全流程管理。

瑞典私募股权基金Summa Equity收购了三家生信软件公司:Pierian、Seven Bridges 和 UgenTec,将其整合成了新公司Velsera。

其中Pierian是美国基因组数据三级分析和解读公司,主要集中在肿瘤方面,提供软件平台和知识库用于出具临床报告。

Seven Bridges提供了基因组及多组学数据分析管理的平台。

UgenTec是一家比利时的公司,本质上提供了实验室信息管理系统LIMS,为实验室、化验制造商和仪器合作伙伴带来样本流智能管理。

整个并购行为,从业务逻辑上体现了精准医疗数据全链条的重要性。如果链条中的任何一个环节上的衔接有瑕疵,整个数据的质量和完整性都无法得到保证。

雷峰网:相较而言,你们有哪些独特优势?

张鑫磊:在技术层面,我们拥有强大的原创生物信息学算法和医学信息学算法研发能力,同时也开发了生物医药行业内的首个低代码软件框架,这大大提高了我们的产品交付效率。

我们拥有BT+IT(生物技术+信息技术)交叉融合的丰富经验,我们的IT团队不仅要熟悉信息技术,还需要深入了解生物医学和生物信息学的背景知识。

医院客户并不过分关注使用哪种IT技术或模型,他们更关心的是产品如何满足他们的需求,解决实际问题。因此,我们的IT团队必须深入了解临床背景,以更高效地支持医院的实际需求。

除了技术优势外,我们还有资源优势。

我们合作的伙伴包括在妇产、儿童、过敏、呼吸等多个领域的国家临床医学中心。通过与这些权威医院的长期合作,以及国家临床医学中心的网络覆盖能力。在生殖衰老、过敏性疾病、自闭症、儿童肿瘤等专病方向上,已经建立了国内最大的专病样本和数据资源平台。这是多年积累的结果,也是一个重要的先发优势。

生信产业化时代已经来临

雷峰网:您是如何认识到生信领域背后的巨大市场潜力,并将其转化为创业机会的?

张鑫磊:在很多情况下,无论是在科研还是产业领域,生物信息学往往被视为一种工具。在科研中,它被当作数据分析工具使用;在产业中,它被用来提供科研服务。

生物信息学的创业,我认为关键在于时机。

在早期,由于数据产生的成本高昂,加上客户对这一领域的认知并不充分,开展创业的可行性并不大。然而,现在情况已经发生了变化。在过去五年中,数据产生的成本降低了十倍以上,数据量激增。现在,每位患者都可以很方便地进行组学方面的检测,而且很多检测被纳入到了医保,因此总体上产生的数据量非常庞大。生物信息学真正独立产业化的机会已经到来。

另一方面,从政策层面来看,生物安全法和遗传资源管理条例的出台,使得对遗传资源进行高质量管理成为刚性要求。现在,市场和数据成为两个关键点,政策导向促使大家开始重视这一领域。

我们公司一直以业务为导向,专注于做市场认可的事情。与其他很多AI+医疗企业相比,我们在继续投入研发的同时,已经能够实现盈亏平衡,并开始产生利润。我们坚信,只要紧跟市场需求,即使过程中有些困难,也是正确的方向。这是我们一直以来坚持的经营信念。

对于公司的持续发展,我认为AI行业中昙花一现的企业太普遍了。很多企业在获得高额融资后,长期来看也是难以为继,根本原因在于缺乏被市场认可的产品,以及持续的盈利能力。

因此,对于想要长期发展的公司来说,关键不在于成为一时的焦点或所谓的“独角兽”,而在于能否持续创造价值。

换句话说,我们是要追求短期的VC投资?还是真正想要建立一个能够持续数十年、为社会带来价值的企业?

对于携云启源来讲,我更希望我们的产品和解决方案应该能够解决实际问题,为我们的客户在临床应用中提供辅助诊断和医工转化的实际价值。只有这样的价值才能支撑公司的长期发展。

否则,如果只是空中楼阁,仅仅卖出一个概念,即使VC提供了资金,但如果找不到持续变现的途径,或者公司的业务与核心算法和数据并无真正的关联,那么公司就会陷入一种表面上看起来很好,但长期发展仍然非常迷茫的状态。最终,这样的公司可能无法承受市场的检验,难以持续下去。

因此,我认为,能够创造真正价值并得到市场认可,才是公司能够持续发展的基础。

雷峰网:当生物信息学与医疗健康领域深度融合时,对于有志于进入这一领域的企业来说,应该如何发挥作用?

张鑫磊:我认为应该从算法和数据两个角度来考虑。

首先,生物信息学是一系列通用的方法,但在医疗健康领域,存在许多具体的应用场景,不同的科室,甚至同一科室内的不同病种都需要具体分析和应用。

作为通用方法的生物信息学,在进一步深入到临床场景中时,也应该注重细分的应用,因为一套标准化的算法很难适配所有的场景。不同的疾病、不同阶段的需求都是不同的,从早期检测到后期预后,需求各有差异。

因此,生物信息学与医疗健康场景的融合是必要的,但要实现良好的融合,就需要更深入地了解医生的需求,理解不同环节的数据特性,并据此改进我们的方法。这是基础性的工作。

从企业的角度来说,我们的角色肯定是创造价值,这就需要注重实际应用场景的落地。在落地的过程中,我们既要注重算法的本地化和细分化,也必须建立在数据质量的基础上。

目前,许多企业和医疗从业者对数据质量的重视还不够。很多生物样本在采集后与临床数据是脱节的,这样的数据是没有价值的。因此,我们特别强调要把握数据质量的源头,这对于做算法的公司来说是至关重要的。

除了细分算法,我们还要提倡建立相关的数据标准,这对整个行业的发展将具有积极的推动意义。然而目前很多从业者,在这方面的意识还是比较淡薄。

雷峰网:鉴于生物信息学领域的快速发展,您预测未来几年可能会出现哪些创新性的突破?这些潜在的进展将如何影响未来的医疗实践和科学研究?

张鑫磊:生物信息学是一个发展非常迅速的技术领域,它也会与数据产生的上游技术和设备紧密相关。

目前,测序成本已经大幅降低,这不仅包括基因组数据,还包括蛋白质组、转录组和微生物组数据。随着数据量的增加,我们将看到更多的应用场景落地,这将涉及到多组学数据的整合,以及多模态数据的融合,包括临床数据和影像数据等。

这种更高维度、更高质量的数据整合将为精准医疗带来更多的可能性。

过去,由于测序成本较高,我们可能只关注单一组学的检测,这实际上是非常有限的。未来的精准医疗将不可避免地涉及到多组学和多模态数据的综合应用。

其次,在精准医疗数据检索和产品形态方面,大模型技术的影响也将日益显著。

我特别强调的一点是,当前医院在转化医学研究方面的趋势。尽管新技术层出不穷,但临床科研的趋势越来越倾向于成果能够转化为实际应用,而不仅仅是基础机制方面的研究。

因此,我们也在与Olink(蛋白组学公司)进行密切的技术合作,构建实验与计算技术的结合,拓展蛋白质组学层面上的诊断标志物发现。

雷峰网:作为北京携云启源科技有限公司的领导者,您对公司的未来发展有何规划和愿景?同时,您认为公司目前面临哪些挑战和待解决的问题?

张鑫磊:短期内,我们希望尽可能提高在精准医疗信息化领域的综合市场占有率。

这里所说的“综合市场”实际上涵盖了科研、医疗和公共卫生三个方面。我们所指的医疗市场与传统的医疗信息化有所不同,我们更侧重于精准医疗,建立临床队列和生命组学数据库,我们在这一领域的工作已经非常深入。

在科研领域,我们会广泛参与到十四五期间的生物计算大型信息化设施的建设。在公卫领域,我们关注的是智慧疾控,这不仅仅是记录疾控系统的检测结果,而是要利用病原体和宿主的基因序列,结合生物信息学方法,实现对新发和突发传染病的监控与预测预警。

我们即将推出的基于大模型的精准医学智能化数据分析平台,将大大降低生物信息分析和精准医疗应用的门槛,可以实现根据用户的问题和数据自动从海量的分析工具和数据库中找到合适的工具和数据完成分析或给出建议。

我们短期的目标是成为精准医疗信息化市场的领导者。我相信只要我们按计划推进,这个目标是可以实现的。

长期来看,我们希望建立一个数据驱动的医工转化生态系统。

我们在多家临床机构进行了信息化平台的建设、维护与运营,旨在促进精准医疗数据的转化应用。这是一个系统工程,需要多方协作,不仅仅是我们一家能够完成的。上游有低温存储、检测设备方面的合作伙伴参与,下游则有分子诊断和制药公司与我们协作,我们希望做成一个能够衔接上下游的关键纽带。

这需要一个广泛合作的体系来共同完成,这也是我们举办本届“生信与转化医学大会”的初衷。

雷峰网:与2023年举办的第一届大会相比,今年的第二届有哪些不同之处?未来是否有进一步调整?

张鑫磊:这次大会最大的不同是,我们有大量临床机构的参与。

从主办方的角度来看,第一届主要由中国生物物理学会生物医学信息分会牵头,更侧重于科研方面的主题报告。

而第二届大会则由学会、医科院肿瘤医院、农工党北京市委三方联合主办,充分体现了生物信息与临床医学的融合。

分论坛的设置也不同于以往,不再以单纯的技术命名,而是加入了大量临床相关的关键词,如“传染病”、“临床队列”、“慢病与衰老”等。

未来,我们的主办方结构将保持不变,生物医学信息分会将与不同的临床机构进行合作,面向新的转化医学主题。在保持现有规模的情况下我们希望一步一个脚印的稳步发展,争取办成业内具备一定影响力和品牌力的大会。

本文作者 吴彤 长期关注人工智能、生命科学和科技一线工作者,欢迎同道微信交流:icedaguniang