生成式 AI 正渗透到生物科技与制药研究的每个角落,但与其他行业一样,实际落地往往远比想象中复杂。Converge Bio 为企业构建了一套工具,专门帮助各公司让其生物领域大语言模型真正发挥作用——从"数据增强"到解释模型输出结果,全流程覆盖。目前,该公司已完成550万美元种子轮融资,用于推进产品规模化。

打开网易新闻 查看精彩图片

"模型本身只是模型,远远不够,"联合创始人兼首席执行官 Dov Gertz 表示,"企业需要一套完整的流程,才能真正将模型融入自身的研发体系。当前市场高度碎片化,而制药和生物科技公司希望以一种整合的方式、在同一个平台上使用这些技术。我们就是要成为这样的平台。"

如果你不是从事药物研发的机器学习工程师,可能对这一痛点并不熟悉。简单来说,目前市面上存在许多强大的基础模型——这些大语言模型的训练数据不是书籍或互联网内容,而是海量的 DNA 序列、蛋白质结构和基因组学数据库。

这些模型功能强大、用途广泛,但与 ChatGPT、Cursor 等产品所使用的大语言模型类似,需要大量工程工作才能将其打磨成可供日常使用的形态。在微生物学、免疫学等专业领域,这一过程尤为困难。如何将一个基于数十亿条蛋白质序列训练出的"原始"大语言模型,转化为实验室技术人员可以在日常研究中直接使用的工具,是一项极具挑战性的工作。

Gertz 以抗体研究为例进行了说明。目前确实存在专门针对抗体生物学训练的大语言模型,但通用性太强。Converge Bio 提供了一系列可在安全环境下、基于企业自有知识产权进行的优化方案。

第一步是"数据增强"——将抗原-抗体相互作用、蛋白质-蛋白质相互作用等重要关联数据注入抗体大语言模型。在获得更具针对性的知识储备之后,模型可以在团队所关注的特定抗原上进行微调,企业或许还拥有该抗原的专有实验室数据。

"这样我们就得到了一个可用的应用:输入是序列,输出是结合亲和力,"Gertz 说。随后,平台还提供了另一个关键层级——可解释性。研究人员可以深入分析输出结果,不仅能知道"这个序列比那个序列效果更好",还能精确定位到氨基酸或碱基对层面,找出究竟是序列中哪个部分在发挥作用。

最后,平台还能生成具有更优结果的新序列,同样配备可解释性功能。Gertz 提到,可解释性功能受客户欢迎的程度出乎他们意料——这其实不难理解,因为它让领域专家能够将自身的专业知识(例如蛋白质相互作用)与生物信息学和机器学习这一相对陌生的领域有效结合起来。

Converge Bio 目前使用多种开源及免费基础模型,同时也在研发自有模型。Gertz 表示,公司已在可解释性环节拥有专有流程,数据增强的"训练课程"也完全自主开发,绝非易事。他指出,训练方法论是最成功的 AI 公司少数几个严守的核心机密之一。

这是 Converge Bio 构建竞争壁垒的重要组成部分,加之 Gertz 所言,"这可能是近五十年来生物科技领域最大的机遇。"

然而,目前许多乃至大多数生物科技公司并没有专门针对本领域大语言模型工作的解决方案,且通用方案往往无法满足细分领域的需求。

"我们的目标是成为生物科技领域生成式 AI 的'全能平台',再以此为切入点,随时间推移不断扩展服务范围,"Gertz 说,"制药和生物行业有一个规律:一旦与某个可信赖的供应商建立合作关系,他们就会希望在更多使用场景中延续这种合作,无论是抗体设计还是疫苗设计。这就是为什么我认为这一定位在当前市场时机下是最优选择。"

投资者对此表示认可,由 TLV Partners 领投的种子轮融资共募集550万美元。

公司将把这笔资金用于招募人才和拓展客户,这是初创企业在此阶段的惯常做法。此外,公司还计划发表一篇关于抗体设计的学术论文(当然是基于自有系统),并训练"一个真正的基础模型"。

Q&A

Q1:Converge Bio 是做什么的?解决了什么问题?

A:Converge Bio 是一家专注于生物科技领域大语言模型落地的公司。它解决的核心问题是:现有生物领域大语言模型虽然强大,但难以直接用于企业日常研发流程。Converge Bio 提供数据增强、模型微调、可解释性分析和新序列生成等功能,帮助制药和生物科技公司将通用基础模型转化为可实际使用的研发工具,且全程保障企业自有知识产权安全。

Q2:Converge Bio 的可解释性功能有什么用?

A:可解释性功能允许研究人员深入分析大语言模型的输出结果,不仅能判断哪个序列效果更好,还能精确定位到氨基酸或碱基对层面,找出影响结果的关键因素。这一功能特别受客户欢迎,因为它帮助领域专家将自身的蛋白质相互作用等专业知识与生物信息学、机器学习结合起来,让 AI 输出结果更具科学可信度和实用价值。

Q3:Converge Bio 这轮融资将用于哪些方向?

A:Converge Bio 完成的550万美元种子轮融资由 TLV Partners 领投。资金主要用于三个方向:一是扩充团队、招募人才;二是拓展客户群体;三是发表关于抗体设计的学术论文,并训练一个自有的基础模型,以进一步强化其在生物科技大语言模型领域的技术壁垒和市场竞争力。