几十亿年前,地球还是一片化学物质的混沌。简单的有机分子在原始大气中游荡,像一群漫无目的的流浪者。没有人——也没有生命——能预料到,这些毫不起眼的化合物会在亿万年的地质变迁中,逐渐编织出一张复杂的网络,最终孕育出生命本身。
这种从简单到神奇的跃迁,至今让科学家着迷。"生命在某种程度上是神奇的,"计算生物学家Sergei Kotelnikov这样说。他描述了一个层层递进的过程:简单的有机化合物聚集成聚合物,聚合物组装成活细胞,细胞最终构成完整的生物体——整体远大于部分之和。
这里存在一个令人困惑的鸿沟。在量子力学的尺度上,"你可以写下分子如何行为的公式,"Kotelnikov解释道。但不知为何,当尺度放大几个数量级后,同样的物理规律却催生出了如此神秘的现象。这种"涌现的复杂性"(emergence of complexity)正是他毕生试图理解的核心问题。
今年,Kotelnikov加入麻省理工学院,成为科学学院院长博士后奖学金项目的一员,在Keating实验室工作。这个实验室专注于蛋白质的结构、功能与相互作用。Kotelnikov的目标是利用机器学习开发蛋白质建模的新方法,潜在应用涵盖从医学到农业的广阔领域。
他的故事,要从欧亚大陆腹地的一座小城说起。
一、从乐高积木到数学谜题
Kotelnikov的童年在俄罗斯阿巴坎度过。这座小城坐落在欧亚大陆的正中心,远离任何学术重镇,却意外地成为一位未来科学家的启蒙之地。
他小时候最喜欢的消遣之一,是玩乐高积木。但Kotelnikov玩的方式有些不同:"它鼓励我去建造新东西,而不是仅仅按照说明书,"他回忆道,"你可以做任何事。"这种自由搭建的体验,或许埋下了他日后科研风格的种子——不满足于既定框架,总想从零开始构造新的可能性。
他的父亲从事工程和经济学工作,常常给他出数学题。Kotelnikov描述那种解题后的感受时,用了一个生动的比喻:"你的大脑——你能感觉到某种理解事物运作方式的扩展,那是一种非常令人满足的感觉。"这种对"扩展理解边界"的渴望,驱动他走上了科学竞赛的道路。
后来,他进入一所靠近俄罗斯科学院的科学导向公立寄宿学校。这段经历被他形容为"像一家糖果店"——周围满是科学家,随时可以接触前沿研究。他称之为"改变人生的经历"。
2012年,Kotelnikov进入莫斯科物理技术学院,攻读物理学和应用数学学士学位。这所院校被认为是俄罗斯乃至全球领先的STEM大学之一。他在这里继续完成了硕士学位。正是在这段时间,生物学进入了他的视野。
一门统计物理学课程向他介绍了"复杂性涌现"的概念。Kotelnikov被这种"神秘而迷人的生物学表现……这种将物理现象锐化以创造、驱动和塑造我们今天所知生命的进化"深深吸引。完成硕士学位时,他意识到自己仅仅触及了计算生物学领域的表面。
2018年,他前往纽约州立大学石溪分校攻读博士学位,开始与Di(原文此处截断,后续内容缺失)
二、蛋白质:生命的乐高积木
要理解Kotelnikov的工作,需要先理解蛋白质在生命中的核心地位。
蛋白质被称为"生命的基本构建单元",这个称呼并非夸张。从催化化学反应的酶,到构成肌肉纤维的结构成分,再到免疫系统识别病原体的抗体——几乎所有生命活动都依赖蛋白质完成。人体内有数万种不同的蛋白质,每一种都有独特的三维结构,而这种结构直接决定其功能。
然而,预测蛋白质的结构是一项极其困难的任务。一个蛋白质分子可能由数百甚至数千个氨基酸组成,这些氨基酸链在细胞环境中会自发折叠成复杂的三维形状。可能的折叠方式数量是天文数字——如果用暴力计算穷举,即使是最快的超级计算机也需要比宇宙年龄还长的时间。
这就是Kotelnikov所说的"几个数量级之上的神秘"。量子力学可以精确描述单个原子的行为,但当数千个原子组成的链条开始折叠时,预测其最终形态就成了巨大的挑战。传统的实验方法,如X射线晶体学和冷冻电镜,虽然能够解析蛋白质结构,但耗时漫长且成本高昂。
近年来,人工智能为这一领域带来了革命性变化。2020年和2021年,DeepMind公司的AlphaFold系统在蛋白质结构预测竞赛中取得突破性进展,其预测精度接近实验方法。这一进展被科学界视为重大里程碑,但Kotelnikov的工作指向更广阔的方向。
在Keating实验室,研究人员不仅关注单个蛋白质的结构,更关注蛋白质之间的相互作用。细胞内的生命活动很少由单一蛋白质独立完成,而是依赖蛋白质复合体——多个蛋白质像精密齿轮一样咬合协作。理解这些相互作用,对于揭示疾病机制和开发新疗法至关重要。
Kotelnikov的机器学习模型试图预测的,正是这些复杂的相互作用网络。他的方法可能帮助科学家在实验之前,就先通过计算筛选出有潜力的蛋白质设计,从而大幅加速药物研发和农业生物技术创新的进程。
三、从莫斯科到波士顿:一条非典型的学术路径
Kotelnikov的履历展现了一条跨越国界的学术轨迹。从俄罗斯科学院附近的寄宿学校,到莫斯科物理技术学院的严格训练,再到纽约石溪大学的博士研究,最终落脚于麻省理工学院——这条路径本身反映了当代科学研究的全球化特征。
莫斯科物理技术学院(MIPT)的学术传统对他的影响尤为深远。这所成立于1946年的院校,以培养理论物理学家和应用数学家闻名,其课程体系强调扎实的数学基础和物理直觉。Kotelnikov在这里接受的训练,使他能够以独特的视角切入生物学问题——不是从实验观察出发,而是从第一性原理推导。
这种背景在计算生物学领域是一种优势。蛋白质折叠问题本质上是统计力学问题:一个由大量原子组成的系统,在热涨落驱动下探索能量景观,最终趋向能量最低的构象。用Kotelnikov自己的话说,这是"将物理现象锐化"以理解生命的过程。
但他也意识到,纯粹的物理方法有其局限。生物进化并非总是找到"最优解",而是在历史约束下寻找"足够好"的解决方案。蛋白质的结构中保留着进化的痕迹,这些历史偶然性无法仅从物理定律推导。这正是机器学习的价值所在:通过分析大量已知蛋白质结构的数据,算法可以学习到进化选择的隐性规律,而这些规律难以用简洁的物理公式表达。
麻省理工学院的Keating实验室为这种跨学科研究提供了理想环境。该实验室的研究涵盖从基础生物物理学到应用生物技术的广泛领域,其成员背景多元,包括生物学家、化学家、物理学家和计算机科学家。Kotelnikov的博士后奖学金项目——科学学院院长博士后奖学金——专门支持在学科交叉领域开展创新研究的年轻学者。
四、机器学习的边界与可能性
尽管人工智能在蛋白质结构预测领域取得了惊人进展,Kotelnikov清楚地认识到当前方法的局限性。
AlphaFold等系统主要解决的是"单链蛋白质结构预测"问题——给定一条氨基酸序列,预测其折叠后的三维结构。但真实的生物系统远比这复杂。许多蛋白质只有在与其他分子结合时才会采取功能性构象;有些蛋白质天生无序,没有固定的三维结构;还有些蛋白质会形成动态变化的寡聚体,其结构随环境条件而变。
更根本的挑战在于,结构预测只是理解蛋白质功能的第一步。知道一个蛋白质长什么形状,并不等同于知道它在细胞内做什么、如何被调控、在什么情况下会出错。这些问题的答案需要整合结构信息、动力学模拟、组学数据和生物学知识。
Kotelnikov的研究方向暗示了一种更综合的方法。他提到"从医学到农业"的潜在应用,这暗示其工作可能涉及多个层面的蛋白质设计:可能是针对特定疾病靶点的新型治疗蛋白,可能是提高作物抗逆性的工程酶,也可能是用于生物制造的新型催化剂。
在医学领域,计算设计的蛋白质已经展现出潜力。例如,科学家设计了能够中和新冠病毒的人工抗体,其结合亲和力经过计算优化,超越了天然抗体的表现。在农业领域,工程化的固氮酶可能减少对化学肥料的依赖,而计算指导的酶改造可以加速这类技术的开发。
但这些应用都面临共同的障碍:计算预测与实验验证之间仍存在差距。机器学习模型在已知类型的蛋白质上表现优异,但对于全新的、与训练数据差异较大的设计,其可靠性会下降。此外,蛋白质的细胞内行为还受到翻译后修饰、分子伴侣辅助、亚细胞定位等多种因素影响,这些复杂性目前难以完全纳入计算模型。
五、"魔法"背后的科学精神
回到Kotelnikov对生命的描述——"在某种程度上是神奇的"。这种表述值得玩味。作为计算生物学家,他完全理解生命现象背后的物理化学基础;但作为一个思考者,他保留了面对复杂性时的谦逊。
这种态度体现了科学探索中一种健康的张力。一方面,科学追求还原论的解释,试图将复杂现象分解为基本规律;另一方面,科学家承认,当简单规则以特定方式组合时,会产生无法从规则本身直接推导出的新特性。这就是"涌现"的核心含义:整体确实大于部分之和,但这种"大于"并非神秘主义,而是复杂系统的数学必然。
Kotelnikov的乐高比喻在这里有了新的含义。乐高积木本身很简单——标准化的塑料块,有限的连接方式。但正是这种简单性,支撑了几乎无限的组合可能性。同样,氨基酸只有20种基本类型,但它们组成的蛋白质却执行着生命所需的一切功能。
他的科研生涯也体现了类似的构建逻辑。从数学和物理的基础训练,到计算生物学的方法开发,再到具体应用领域的问题解决——每一层都在前一层的基础上添加新的复杂性,同时保持对底层原理的尊重。
六、未完成的叙事
原文在Kotelnikov的博士阶段开始时截断,我们无从得知他在石溪大学的具体研究方向,也无法了解他博士论文的主题。这些缺失的细节本可以丰富我们对这位科学家的理解——他早期的工作如何塑造了他现在的研究兴趣?他在博士期间遇到了哪些挑战?是什么具体的问题引导他走向蛋白质相互作用的研究?
同样,关于他在MIT的具体项目,原文只提供了最简要的轮廓。"开发蛋白质建模的新方法"是一个宽泛的描述,可能涵盖从算法创新到软件开发的多种活动。他与Keating实验室其他成员的合作方式、他如何平衡方法学研究与实际应用,这些故事细节都有待补充。
这种信息的不完整性,恰恰反映了科学报道的普遍困境。研究者的日常工作大多是渐进式的——编写代码、调试模型、分析数据、与同行讨论——这些活动难以压缩成引人入胜的叙事。而当我们试图提炼"故事"时,往往只能选择几个关键节点,牺牲过程的丰富性。
但即使在这些限制下,Kotelnikov的经历仍然提供了一个有价值的观察窗口。它展示了一位科学家如何从童年的好奇心出发,通过系统的学术训练,最终进入一个处于技术革命前沿的研究领域。它也提醒我们,重大科学进展往往发生在学科交叉的地带——在这里,物理学的思维方式、生物学的经验数据和计算机科学的技术工具相互碰撞,产生新的可能性。
七、展望未来:预测与设计的双重挑战
蛋白质科学正处于一个转折点。预测问题——从序列推断结构——在AlphaFold的突破后似乎接近解决,尽管仍有细节需要完善。但设计问题——创造具有特定功能的新型蛋白质——仍然开放得多。
设计是比预测更困难的逆向工程。预测可以依赖进化已经探索过的解决方案,而设计需要进入未知的序列空间,寻找自然界从未尝试过的可能性。这要求计算方法不仅能够识别"合理的"蛋白质结构,还能够评估这些结构是否真的能执行预期的功能。
Kotelnikov提到的"从医学到农业"的应用,暗示他可能同时涉足预测和设计两个方向。在医学领域,准确的结构预测可以帮助理解遗传变异如何导致疾病,从而指导药物开发;在农业领域,从头设计具有新特性的酶,可能带来更可持续的农业生产方式。
这些应用的实现,将依赖于计算方法的持续改进。当前的机器学习模型主要是数据驱动的——它们从已知蛋白质结构中学习模式,然后推广到新的序列。但未来的突破可能需要整合更多的物理知识,例如蛋白质折叠的动力学、溶剂效应、以及细胞环境的复杂性。
此外,蛋白质科学的进步也需要实验方法的配合。计算预测无论多么精确,最终都需要实验验证。冷冻电镜技术的分辨率革命、单分子实验技术的发展、以及高通量筛选方法的进步,都在为计算设计与实验测试的闭环提供支持。
八、科学作为一种"扩展理解"的生活方式
回顾Kotelnikov的描述,最打动人的或许不是他研究的具体内容,而是他对科学活动本身的理解。那种"大脑扩展"的感觉,那种"理解事物运作方式"的满足,是驱动他穿越不同国家、不同学科的动力源泉。
这种动机与功利性的职业计算不同。科学奥林匹克、寄宿学校的"糖果店"、从物理到生物的转向——这些选择很难用简单的成本收益分析解释。它们反映了一种更深层的冲动:面对复杂性的好奇,解决问题的愉悦,以及在理解边缘探索的兴奋。
在当代科学日益专业化、职业压力日益增大的背景下,这种纯粹的好奇心显得尤为珍贵。它也提醒我们,科学进步最终依赖于个体的认知投入——那些愿意在不确定性中工作、在失败中坚持、在复杂中寻找简单规律的人。
Kotelnikov的乐高比喻在这里有了最后的回响。科学,在某种程度上,也是一种建造活动——不是按照既定说明书,而是凭借想象力和系统性方法,构造出理解世界的新方式。每一块"积木"——一个数学技巧、一种实验方法、一个计算工具——本身可能平平无奇,但它们的组合可以创造出意想不到的整体。
生命如何从简单分子中涌现,这一问题的答案或许仍不完全清晰。但像Kotelnikov这样的研究者正在建造的,是逐步逼近答案的工具和方法。在这个过程中,他们也在扩展人类理解复杂性的边界——这种扩展本身,就是科学作为一种文化活动的核心价值。
热门跟贴