打开网易新闻 查看精彩图片

一款常用于常规手术的由外科医生手动操作的机器人,如今已能像人类一样精准地自主执行关键手术任务。

约翰斯·霍普金斯大学和斯坦福大学的研究人员透露,他们将一个经过数小时手术视频训练的视觉语言模型(VLM)与广泛使用的达芬奇外科手术机器人系统进行了整合。

基于这一视觉语言模型,达芬奇机器人的微型夹爪(即“手”)可以自主执行三项关键手术任务:小心提起人体组织、操控手术针以及缝合伤口。

传统的机器人训练方法需要对机器人动作的每个组成部分进行详细编程,与之不同的是,经过改装的达芬奇机器人仅通过模仿学习就能完成“零样本”手术任务。仅依靠其视觉语言模型,这款机器人就能实现模仿手术视频中医生的操作。

这一成果让我们得以窥见未来完全由自主机器人开展的手术可能会是什么样子。

“这些机器人如今能够自主完成如此复杂的任务,实在令人惊叹,”约翰斯・霍普金斯大学的博士后研究员 Ji Woong Brian Kim 说道,“通过模仿学习来为机器人编程,使其能够进行手术操作,这是机器人技术发展的一项重要突破。我认为,这是自主手术机器人的未来发展方向。”

为了训练模型,研究人员使用了 NVIDIA GeForce RTX GPU、PyTorch 以及 NVIDIA CUDA - X

11 月,研究人员在慕尼黑举行的机器人学习大会(Conference on Robot Learning)上公布了这一研究成果。在这项实验中,机器人专家们使用了达芬奇外科手术机器人,机器人最多可配备四个机械臂,如今已经被全球各地的外科医生广泛应用于各类腹腔镜手术。

为了训练视觉语言模型(VLM),Kim 博士和他的同事将微型摄像机连接到三台达芬奇机器人的机械臂上。这三台机器人由约翰斯・霍普金斯大学提供,用于此次实验。

Kim 博士和他的同事使用医生常用来练习手术技巧的小型硅胶垫,以腹腔镜手术的方式操控机器人进行操作。

Kim 博士录制了约 20 小时的视频,记录自己操控达芬奇机器人夹爪(这些夹爪合起来大约只有一便士硬币那么大)完成三项操作的过程:提起模拟人体组织、操控手术针以及用手术线打结。

他还记录了与夹爪手动操作相关的运动学数据。这些运动学数据包含了 Kim 博士在每个手术步骤中操控机器人时所使用的角度和压力等精确信息。

在用手术视频和运动学数据对 VLM 进行训练后,研究人员将该模型与达芬奇机器人连接起来,并指示机器人执行这三项手术任务。

研究人员用鸡肉和猪肉进行实验,这些动物肉模仿了人体组织的外观和触感,而且机器人此前也从未接触过相似的操作。

令他们欣喜的是,在“零样本”环境下,机器人近乎完美地完成了这些手术操作。

Kim 博士表示,机器人能够自主解决一些未曾预料到的难题,这一点非常令人惊喜。

实验中有一次,手术针意外从夹爪中掉落,尽管从未接受过应对这种情况的明确训练,机器人还是捡起了手术针,并继续进行手术任务。

“我们从未训练模型处理猪肉或鸡肉组织,也没有教它如何拾起掉落的手术针,”Kim 博士表示,“看到机器人在这种完全超出训练范围的全新环境中能够自主运作,我们感到非常激动。”

Kim 博士目前正在撰写一篇新的论文,详细阐述在动物身上开展的最新研究成果。他还在开发更多的训练数据,以进一步拓展达芬奇机器人的能力。

在 GitHub 上阅读研究人员的论文:

https://surgical-robot-transformer.github.io/

查看有关自主手术机器人的更多报道:

https://hub.jhu.edu/2024/11/11/surgery-robots-trained-with-videos/