对话上海交大AI研究院沈为：我相信奇点将至，但更信脚踏实地|ai|上海交大|人工智能|沈为|算法|计算机视觉

沈为上海交通大学人工智能研究院教授博士生导师
曾任约翰霍普金斯大学计算机系助理研究教授。研究方向为计算机视觉、深度学习与医学影像处理，关注弱监督/无监督下图像分割等视觉识别任务。发表IEEE TPAMI、IEEE TIP、IEEE TMI、NeurIPS、CVPR等人工智能相关领域顶级期刊和会议50多篇，谷歌学术引用1万多次。担任NeurIPS 2023/2024、CVPR 2022/2023、ACCV 2022领域主席，担任SCI一区期刊Pattern Recognition编委、上海市计算机学会计算机视觉专委副主任。代表性工作获得MICCAI 2023青年科学家奖。国家优青，入选上海领军人才（海外）。

这两年，直播间有个极具生命力的梗，叫做“你这背景太假了”。仅抖音平台的相关衍生话题，就超过30亿播放量。每当主播的背景效果过于震撼、艳丽，就会被网友要求“自证”，比如光脚淌水、向身后扔矿泉水瓶等。

难分真假的吃瓜群众，之所以对自己的眼睛愈发不自信，深层原因在于计算机的“眼睛”越来越强大。随着图像分割算法不断优化，直播间、视频会议里的虚拟背景，已经可以和人物不露破绽的丝滑衔接，为工作、娱乐带去更多沉浸体验。

上海交通大学人工智能研究院教授沈为，就是该领域的耕耘者之一。

他曾在多项国家自然科学基金的项目研究中，建立起形状引导的图像分割计算机制和方法，为相关应用的发展提供了扎实的学术理论支撑。眼下，他正率领团队通过计算机视觉和深度学习，为医学影像行业赋能。

在沈为身上，你会看到一种有趣的“对立统一”：他清醒意识到现有AI基石——计算机“冯诺依曼体系”的局限性，认为“唯有底层技术革命，才能突破现有瓶颈”。同时又愿意脚踏实地，在现有框架下，朝计算机视觉领域的最高峰持续攀登。

半路入行找到“人生坐标”，三位恩师影响了我

专注、冷静、重理性思维，是学界人士的基本特质。但沈为与计算机视觉领域结缘，却源于一次原因不那么理性的“半路出家”。

沈为的本科专业是“信息与通信工程”，满怀期待的他却在入学后有所动摇。

“我的专业主要与信号、声波、频谱打交道，这些东西看不见摸不着。而我又是一个对画面感有期待和追求的人，小时候的很多兴趣和梦想都是源于一些有画面感的事物。”

为了做出改变，他以专业课中的“图像处理”为跳板，在读博期间转向计算机视觉领域。他的博士生副导师，华中科技大学教授白翔为他带去了很多积极影响。

巧合的是，白翔教授也是“半路出家”，并经历过一段非常艰难的转型过程。但这没有妨碍他成为人工智能行业、场景文字检测与识别技术的尖端人才。白翔教授相信“兴趣的力量”，并鼓励学生参加学术竞赛与实战项目，去接触应用场景中真实的数据、算法和系统，从而有效避免“闭门造车”，在研究具体问题时取得突破。

在白翔教授的推荐下，沈为前往微软亚洲研究院实习，并得到了微软亚洲研究院高级研究员、加州大学圣地亚哥大学教授屠卓文的指点和帮助。屠卓文教授的很多工作内容，都处于学界最前沿。同时他又是一位自己上手写代码，亲力亲为的导师。在他的引领下，沈为在计算机视觉和深度学习领域不断扩展视野，积累了丰富的经验。

两位恩师的言传身教，让沈为有了一个坚实的事业起点。

2014年，已经回国任教的他开始推动“基于深度学习的边缘检测”项目，为了赶论文进度一度达到废寝忘食的程度。功夫不负有心人，一年后，相关研究成果获得全球计算机视觉顶级会议CVPR的发表，并得到学术圈广泛关注和引用。

正是这篇论文，在一定程度上推动了边缘检测的跃进发展，通过深度学习让物体与物体间的边界、杂乱背景的噪声影响得到更强区分性，解决了虚拟背景等应用不够精细、穿模的问题。

几年后，已经在业内有所建树的沈为决定前往美国约翰斯·霍普金斯大学计算机科学系进行交流学习。也是这期间，他生命中第三位意义非凡的恩师出现了——著名物理学家史霍金的得意门生，计算机视觉学科奠基人之一的艾伦·尤尔。

艾伦·尤尔教授致力于推动人工智能与医疗影像方面的应用场景相结合，以此来辅助医生提高工作效率。

他较早预见到贝叶斯定理在计算机视觉领域的应用优势，并在“基于CT影像的早期胰腺癌诊断”项目中取得多项突破。沈为就曾参与到该项目中，并提出多项CT影像中胰腺肿瘤分割技术。

在三位老师的影响下，沈为从一个“被画面感所吸引”的学者，成长为计算机视觉与深度学习领域的技术专家，一步步找到了自己的“人生坐标”。

做“留在实验室的人”，用AI为医疗行业开扇窗

万卡集群时代的开启，让AI领域得到了不可思议的加速度。自动驾驶、ChatGPT、人形机器人、Sora、百模大战...热点频出的当下，越来越多科学家与学术大牛选择下场创业，或是开辟一些离热点更近的研究方向。

但沈为还是选择留在“实验室”里，他始终认为，热点不是用来追逐的，而是应该把热点中的价值导入自己的研究方向。

这种鲜明的长期主义特质，似乎也是从三位恩师身上传承而来。加入上海交通大学人工智能研究院以来，沈为的主要研究方向还是集中在“老本行”——图像分割与医学影像分析。

图像分割是帮助计算机理解图像信息、提取图像数据的关键一环。小到虚拟背景，大到工业制造、自动驾驶、人形机器人，都需要不断提高分割精度，才有可能完成最终落地。

沈为现阶段的主要工作，就是通过医学图像分割模型服务于医院等场景。比如，让搭载了AI算法的CT能够自主识别肺结节、肺结核、胰腺肿瘤，尤其是低对比度的病灶。在他看来，随着这些技术与硬件相结合，可以为医生提供一层“科技漏斗”，帮助医生过滤掉繁琐的工作内容，让他们有更多精力专注于诊断和施策。

在项目合作中沈为发现，医学图像的优质数据高度依赖医生的标注，但这势必会为他们的日常工作带去干扰。为此，他尝试通过技术创新，在弱监督环境下，实现与全监督环境相当的分割精度。同时在算法中导入医生的优秀经验，让AI能够物尽其用。他的部分研究成果已经在某医疗科技巨头的产品上成功落地，为医院带去了效率提升。

专注于本职工作的同时，沈为还积极与国家创新项目展开合作。目前，他参与了金山云和瑞金医院牵头的国家重点研发计划——虚拟手术。

“优秀主刀医生的短缺，已经成为全球范围的待解难题。相较于其它行业，医生的培养更加耗时。尤其是主刀医生，需要大量实践机会提升经验。但每个躺在手术台上的患者，都不希望自己成为‘小白鼠’。所以年轻医生只能通过假人、动物进行手术训练。”

虚拟手术项目的发起，就是希望构建一个还原度极高的仿真环境，通过医学影像的分割、手术场景的重建、三维器官的呈现，让医学院的学子们得到更多实操机会。

沈为能够参与到这一国家级项目中，与他的专注和长期主义息息相关。

2023年，沈为和团队的重磅研究成果“基于神经辐射场的内窥镜手术场景组织动态三维重建工作”，发表在医学影像处理顶级国际会议MICCAI上。并在2000多篇投稿论文的角逐中脱颖而出，斩获青年科学家奖，成为该奖项中的唯一华人团队。

相信他的学术成果，能够让虚拟手术项目加速落地，从而让年轻医生尽快成长起来，承接日益增加的手术量。在沈为看来，AI在医疗影像、虚拟手术上的应用，有望解决城乡医疗资源不均衡的瓶颈。

相信奇点将至，更信奉脚踏实地

未来学家雷蒙德·库兹韦尔曾在《奇点临近》一书中预测，未来某个时点，高度发达的机器智能将与人类文明相互融合，对现有文明、科技体系产生巨大变革，甚至帮助人类超越生物局限性，即所谓的“AI奇点论”。

在沈为看来，GPT、SORA的横空出世恰恰说明，未来会有更重磅的颠覆性科技突然涌现，且这个时点可能比多数人想象的还要近。但他更坚定认为，依托于冯·诺依曼底层原理的现有人工智能，无法通过扫描、存储、访问的模式产生媲美人类的机器智能，很多相关的阴谋论是杞人忧天。

“人类思维的运行机制，和现有人工智能模型有本质区别。我们的大脑能用不到一个电灯泡的低能耗，完成人工智能需要上万瓦能耗的任务。”

从沈为的叙事中不难推导，很多将AI与人类智商类比的说法都极不严谨。但这并不影响AI在特定领域为人类服务，只是需要市场参与者更加务实去扬长避短。

以计算机视觉为例，沈为认为行业最大的痛点是“计算机视觉系统的精度无法确保100%，所以很多场景下只能发挥辅助作用。”包括当下大火的Sora，他看好其在广告营销、游戏动画、虚拟人制作等方向的发挥。但这类模型也会长期受到物理规律认知不足、AI幻觉的影响，无法在严肃场景胜任。

沈为坦言，计算机视觉领域很难诞生GPT这样的通用模型。

“语言是人类创造的高度精炼的表达，每个单位都独立存在，具有离散性，更易生成通用模型。但自然界的图像却是连续的，所以具有通用智能的计算机视觉系统，至今没有被研发出来。在解决具体问题时，我们要根据应用场景去一个个打造垂直模型，未来的趋势也必然会从纯视觉转向多模态。”

即使知道计算机视觉的“先天不足”，沈为还是选择脚踏实地，用长期主义的研究态度去解决实际问题。他谈到，做研究只有才华和资源远远不够，还需要“头铁”。

“就像深度学习三巨头，1986年就有了研究雏形，但是受限于那个硬件不成熟的年代而沉寂许久，很多年后才等到GPU的爆发。可见，有巨大影响力的研究成果，都需要不计时间成本的强大意志力来支撑。”

虽然自己是个相信“坚持出奇迹”的学者，但他也鼓励国内有余力的团队、商业公司积极研究国外先进案例，至少能以跟随战略做到“不落后”。“GPT也好，Sora也罢，很难说未来会不会演变成卡脖子式的技术，所以应该对类似新物种保持敏感。”

这就是沈为，一个相信“奇点将至”，但更信奉脚踏实地的学者。

对话上海交大AI研究院沈为：我相信奇点将至，但更信脚踏实地

热搜

热门跟贴

热搜

热门跟贴

相关推荐

8年前阿法狗的一个“错误”，竟成大模型研究新方向！ 大模型之争进入新阶段，从拼“模仿”转向拼“推理”

世界上最准的时钟来了，它会颠覆现在的物理学吗？ 前不久，美国科罗拉多大学叶军教授团队，用原子核制造了

AI智能体，人工智能的“增程模式”？

AutoGLM带火智谱概念股！AI能自己丝滑操作手机 科技巨头纷纷入局

哪个老板不想要能赚钱的数字人？

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

人工智能意识觉醒？听听霍金的同门师兄弟怎么说

ChatGPT推出搜索引擎 今天，OpenAI上线了AI搜索引擎SearchGPT，可以实时搜索最新

世界上最准的时钟来了，它会颠覆现在的物理学吗？

顶级AI投资人发起中国大模型群聊：十大趋势、具身智能、AI超级应用

AI获风投大佬投资，5天狂赚2亿财富，疯狂的真相是什么？ 一个AI获得风投大佬5万美元投资，短短5天

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

国家安全部：不法分子可能借助人工智能技术进行数据窃取、网络攻击等违法犯罪活动

告别屈膝小碎步 让机器人像人一样走路 国产团队造出“钢铁侠”

中国科学院用数学研究深度学习，助力理解神经网络深度的有效性

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

三千年未有之大变局 我们注定面临一个动荡难测的未来

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

8年前阿法狗的一个“错误”，竟成大模型研究新方向！大模型之争进入新阶段，从拼“模仿”转向拼“推理”

世界上最准的时钟来了，它会颠覆现在的物理学吗？前不久，美国科罗拉多大学叶军教授团队，用原子核制造了

AutoGLM带火智谱概念股！AI能自己丝滑操作手机科技巨头纷纷入局

ChatGPT推出搜索引擎今天，OpenAI上线了AI搜索引擎SearchGPT，可以实时搜索最新

AI获风投大佬投资，5天狂赚2亿财富，疯狂的真相是什么？一个AI获得风投大佬5万美元投资，短短5天

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

三千年未有之大变局我们注定面临一个动荡难测的未来