用乐高思维破解生命密码：一位计算生物学家如何用AI预测蛋白质结构|乐高|氨基酸|物理学|生命密码|生物学|科学|细胞|蛋白质

几十亿年前，地球还是一片化学物质的混沌。简单的有机分子在原始大气中游荡，像一群漫无目的的流浪者。没有人——也没有生命——能预料到，这些毫不起眼的化合物会在亿万年的地质变迁中，逐渐编织出一张复杂的网络，最终孕育出生命本身。

这种从简单到神奇的跃迁，至今让科学家着迷。"生命在某种程度上是神奇的，"计算生物学家Sergei Kotelnikov这样说。他描述了一个层层递进的过程：简单的有机化合物聚集成聚合物，聚合物组装成活细胞，细胞最终构成完整的生物体——整体远大于部分之和。

这里存在一个令人困惑的鸿沟。在量子力学的尺度上，"你可以写下分子如何行为的公式，"Kotelnikov解释道。但不知为何，当尺度放大几个数量级后，同样的物理规律却催生出了如此神秘的现象。这种"涌现的复杂性"（emergence of complexity）正是他毕生试图理解的核心问题。

今年，Kotelnikov加入麻省理工学院，成为科学学院院长博士后奖学金项目的一员，在Keating实验室工作。这个实验室专注于蛋白质的结构、功能与相互作用。Kotelnikov的目标是利用机器学习开发蛋白质建模的新方法，潜在应用涵盖从医学到农业的广阔领域。

他的故事，要从欧亚大陆腹地的一座小城说起。

一、从乐高积木到数学谜题

Kotelnikov的童年在俄罗斯阿巴坎度过。这座小城坐落在欧亚大陆的正中心，远离任何学术重镇，却意外地成为一位未来科学家的启蒙之地。

他小时候最喜欢的消遣之一，是玩乐高积木。但Kotelnikov玩的方式有些不同："它鼓励我去建造新东西，而不是仅仅按照说明书，"他回忆道，"你可以做任何事。"这种自由搭建的体验，或许埋下了他日后科研风格的种子——不满足于既定框架，总想从零开始构造新的可能性。

他的父亲从事工程和经济学工作，常常给他出数学题。Kotelnikov描述那种解题后的感受时，用了一个生动的比喻："你的大脑——你能感觉到某种理解事物运作方式的扩展，那是一种非常令人满足的感觉。"这种对"扩展理解边界"的渴望，驱动他走上了科学竞赛的道路。

后来，他进入一所靠近俄罗斯科学院的科学导向公立寄宿学校。这段经历被他形容为"像一家糖果店"——周围满是科学家，随时可以接触前沿研究。他称之为"改变人生的经历"。

2012年，Kotelnikov进入莫斯科物理技术学院，攻读物理学和应用数学学士学位。这所院校被认为是俄罗斯乃至全球领先的STEM大学之一。他在这里继续完成了硕士学位。正是在这段时间，生物学进入了他的视野。

一门统计物理学课程向他介绍了"复杂性涌现"的概念。Kotelnikov被这种"神秘而迷人的生物学表现……这种将物理现象锐化以创造、驱动和塑造我们今天所知生命的进化"深深吸引。完成硕士学位时，他意识到自己仅仅触及了计算生物学领域的表面。

2018年，他前往纽约州立大学石溪分校攻读博士学位，开始与Di（原文此处截断，后续内容缺失）

二、蛋白质：生命的乐高积木

要理解Kotelnikov的工作，需要先理解蛋白质在生命中的核心地位。

蛋白质被称为"生命的基本构建单元"，这个称呼并非夸张。从催化化学反应的酶，到构成肌肉纤维的结构成分，再到免疫系统识别病原体的抗体——几乎所有生命活动都依赖蛋白质完成。人体内有数万种不同的蛋白质，每一种都有独特的三维结构，而这种结构直接决定其功能。

然而，预测蛋白质的结构是一项极其困难的任务。一个蛋白质分子可能由数百甚至数千个氨基酸组成，这些氨基酸链在细胞环境中会自发折叠成复杂的三维形状。可能的折叠方式数量是天文数字——如果用暴力计算穷举，即使是最快的超级计算机也需要比宇宙年龄还长的时间。

这就是Kotelnikov所说的"几个数量级之上的神秘"。量子力学可以精确描述单个原子的行为，但当数千个原子组成的链条开始折叠时，预测其最终形态就成了巨大的挑战。传统的实验方法，如X射线晶体学和冷冻电镜，虽然能够解析蛋白质结构，但耗时漫长且成本高昂。

近年来，人工智能为这一领域带来了革命性变化。2020年和2021年，DeepMind公司的AlphaFold系统在蛋白质结构预测竞赛中取得突破性进展，其预测精度接近实验方法。这一进展被科学界视为重大里程碑，但Kotelnikov的工作指向更广阔的方向。

在Keating实验室，研究人员不仅关注单个蛋白质的结构，更关注蛋白质之间的相互作用。细胞内的生命活动很少由单一蛋白质独立完成，而是依赖蛋白质复合体——多个蛋白质像精密齿轮一样咬合协作。理解这些相互作用，对于揭示疾病机制和开发新疗法至关重要。

Kotelnikov的机器学习模型试图预测的，正是这些复杂的相互作用网络。他的方法可能帮助科学家在实验之前，就先通过计算筛选出有潜力的蛋白质设计，从而大幅加速药物研发和农业生物技术创新的进程。

三、从莫斯科到波士顿：一条非典型的学术路径

Kotelnikov的履历展现了一条跨越国界的学术轨迹。从俄罗斯科学院附近的寄宿学校，到莫斯科物理技术学院的严格训练，再到纽约石溪大学的博士研究，最终落脚于麻省理工学院——这条路径本身反映了当代科学研究的全球化特征。

莫斯科物理技术学院（MIPT）的学术传统对他的影响尤为深远。这所成立于1946年的院校，以培养理论物理学家和应用数学家闻名，其课程体系强调扎实的数学基础和物理直觉。Kotelnikov在这里接受的训练，使他能够以独特的视角切入生物学问题——不是从实验观察出发，而是从第一性原理推导。

这种背景在计算生物学领域是一种优势。蛋白质折叠问题本质上是统计力学问题：一个由大量原子组成的系统，在热涨落驱动下探索能量景观，最终趋向能量最低的构象。用Kotelnikov自己的话说，这是"将物理现象锐化"以理解生命的过程。

但他也意识到，纯粹的物理方法有其局限。生物进化并非总是找到"最优解"，而是在历史约束下寻找"足够好"的解决方案。蛋白质的结构中保留着进化的痕迹，这些历史偶然性无法仅从物理定律推导。这正是机器学习的价值所在：通过分析大量已知蛋白质结构的数据，算法可以学习到进化选择的隐性规律，而这些规律难以用简洁的物理公式表达。

麻省理工学院的Keating实验室为这种跨学科研究提供了理想环境。该实验室的研究涵盖从基础生物物理学到应用生物技术的广泛领域，其成员背景多元，包括生物学家、化学家、物理学家和计算机科学家。Kotelnikov的博士后奖学金项目——科学学院院长博士后奖学金——专门支持在学科交叉领域开展创新研究的年轻学者。

四、机器学习的边界与可能性

尽管人工智能在蛋白质结构预测领域取得了惊人进展，Kotelnikov清楚地认识到当前方法的局限性。

AlphaFold等系统主要解决的是"单链蛋白质结构预测"问题——给定一条氨基酸序列，预测其折叠后的三维结构。但真实的生物系统远比这复杂。许多蛋白质只有在与其他分子结合时才会采取功能性构象；有些蛋白质天生无序，没有固定的三维结构；还有些蛋白质会形成动态变化的寡聚体，其结构随环境条件而变。

更根本的挑战在于，结构预测只是理解蛋白质功能的第一步。知道一个蛋白质长什么形状，并不等同于知道它在细胞内做什么、如何被调控、在什么情况下会出错。这些问题的答案需要整合结构信息、动力学模拟、组学数据和生物学知识。

Kotelnikov的研究方向暗示了一种更综合的方法。他提到"从医学到农业"的潜在应用，这暗示其工作可能涉及多个层面的蛋白质设计：可能是针对特定疾病靶点的新型治疗蛋白，可能是提高作物抗逆性的工程酶，也可能是用于生物制造的新型催化剂。

在医学领域，计算设计的蛋白质已经展现出潜力。例如，科学家设计了能够中和新冠病毒的人工抗体，其结合亲和力经过计算优化，超越了天然抗体的表现。在农业领域，工程化的固氮酶可能减少对化学肥料的依赖，而计算指导的酶改造可以加速这类技术的开发。

但这些应用都面临共同的障碍：计算预测与实验验证之间仍存在差距。机器学习模型在已知类型的蛋白质上表现优异，但对于全新的、与训练数据差异较大的设计，其可靠性会下降。此外，蛋白质的细胞内行为还受到翻译后修饰、分子伴侣辅助、亚细胞定位等多种因素影响，这些复杂性目前难以完全纳入计算模型。

五、"魔法"背后的科学精神

回到Kotelnikov对生命的描述——"在某种程度上是神奇的"。这种表述值得玩味。作为计算生物学家，他完全理解生命现象背后的物理化学基础；但作为一个思考者，他保留了面对复杂性时的谦逊。

这种态度体现了科学探索中一种健康的张力。一方面，科学追求还原论的解释，试图将复杂现象分解为基本规律；另一方面，科学家承认，当简单规则以特定方式组合时，会产生无法从规则本身直接推导出的新特性。这就是"涌现"的核心含义：整体确实大于部分之和，但这种"大于"并非神秘主义，而是复杂系统的数学必然。

Kotelnikov的乐高比喻在这里有了新的含义。乐高积木本身很简单——标准化的塑料块，有限的连接方式。但正是这种简单性，支撑了几乎无限的组合可能性。同样，氨基酸只有20种基本类型，但它们组成的蛋白质却执行着生命所需的一切功能。

他的科研生涯也体现了类似的构建逻辑。从数学和物理的基础训练，到计算生物学的方法开发，再到具体应用领域的问题解决——每一层都在前一层的基础上添加新的复杂性，同时保持对底层原理的尊重。

六、未完成的叙事

原文在Kotelnikov的博士阶段开始时截断，我们无从得知他在石溪大学的具体研究方向，也无法了解他博士论文的主题。这些缺失的细节本可以丰富我们对这位科学家的理解——他早期的工作如何塑造了他现在的研究兴趣？他在博士期间遇到了哪些挑战？是什么具体的问题引导他走向蛋白质相互作用的研究？

同样，关于他在MIT的具体项目，原文只提供了最简要的轮廓。"开发蛋白质建模的新方法"是一个宽泛的描述，可能涵盖从算法创新到软件开发的多种活动。他与Keating实验室其他成员的合作方式、他如何平衡方法学研究与实际应用，这些故事细节都有待补充。

这种信息的不完整性，恰恰反映了科学报道的普遍困境。研究者的日常工作大多是渐进式的——编写代码、调试模型、分析数据、与同行讨论——这些活动难以压缩成引人入胜的叙事。而当我们试图提炼"故事"时，往往只能选择几个关键节点，牺牲过程的丰富性。

但即使在这些限制下，Kotelnikov的经历仍然提供了一个有价值的观察窗口。它展示了一位科学家如何从童年的好奇心出发，通过系统的学术训练，最终进入一个处于技术革命前沿的研究领域。它也提醒我们，重大科学进展往往发生在学科交叉的地带——在这里，物理学的思维方式、生物学的经验数据和计算机科学的技术工具相互碰撞，产生新的可能性。

七、展望未来：预测与设计的双重挑战

蛋白质科学正处于一个转折点。预测问题——从序列推断结构——在AlphaFold的突破后似乎接近解决，尽管仍有细节需要完善。但设计问题——创造具有特定功能的新型蛋白质——仍然开放得多。

设计是比预测更困难的逆向工程。预测可以依赖进化已经探索过的解决方案，而设计需要进入未知的序列空间，寻找自然界从未尝试过的可能性。这要求计算方法不仅能够识别"合理的"蛋白质结构，还能够评估这些结构是否真的能执行预期的功能。

Kotelnikov提到的"从医学到农业"的应用，暗示他可能同时涉足预测和设计两个方向。在医学领域，准确的结构预测可以帮助理解遗传变异如何导致疾病，从而指导药物开发；在农业领域，从头设计具有新特性的酶，可能带来更可持续的农业生产方式。

这些应用的实现，将依赖于计算方法的持续改进。当前的机器学习模型主要是数据驱动的——它们从已知蛋白质结构中学习模式，然后推广到新的序列。但未来的突破可能需要整合更多的物理知识，例如蛋白质折叠的动力学、溶剂效应、以及细胞环境的复杂性。

此外，蛋白质科学的进步也需要实验方法的配合。计算预测无论多么精确，最终都需要实验验证。冷冻电镜技术的分辨率革命、单分子实验技术的发展、以及高通量筛选方法的进步，都在为计算设计与实验测试的闭环提供支持。

八、科学作为一种"扩展理解"的生活方式

回顾Kotelnikov的描述，最打动人的或许不是他研究的具体内容，而是他对科学活动本身的理解。那种"大脑扩展"的感觉，那种"理解事物运作方式"的满足，是驱动他穿越不同国家、不同学科的动力源泉。

这种动机与功利性的职业计算不同。科学奥林匹克、寄宿学校的"糖果店"、从物理到生物的转向——这些选择很难用简单的成本收益分析解释。它们反映了一种更深层的冲动：面对复杂性的好奇，解决问题的愉悦，以及在理解边缘探索的兴奋。

在当代科学日益专业化、职业压力日益增大的背景下，这种纯粹的好奇心显得尤为珍贵。它也提醒我们，科学进步最终依赖于个体的认知投入——那些愿意在不确定性中工作、在失败中坚持、在复杂中寻找简单规律的人。

Kotelnikov的乐高比喻在这里有了最后的回响。科学，在某种程度上，也是一种建造活动——不是按照既定说明书，而是凭借想象力和系统性方法，构造出理解世界的新方式。每一块"积木"——一个数学技巧、一种实验方法、一个计算工具——本身可能平平无奇，但它们的组合可以创造出意想不到的整体。

生命如何从简单分子中涌现，这一问题的答案或许仍不完全清晰。但像Kotelnikov这样的研究者正在建造的，是逐步逼近答案的工具和方法。在这个过程中，他们也在扩展人类理解复杂性的边界——这种扩展本身，就是科学作为一种文化活动的核心价值。