被冷落的RL、GPU再思考、大模型的“秘密武器”…｜吴恩达最新万字实录|吴恩达|大模型|知名企业|算法|翻译|语音识别|谷歌

8月8日，AI领域的先驱人物、Coursera及AI Fund创始人吴恩达接受了The Moonshot播客的专访。本次对话围绕吴恩达的学术生涯起点、Google Brain项目的创立与发展、以及AI的未来趋势，回顾了Google Brain项目赖以成功的两大颠覆性基石——“规模至上”与“单一学习算法”假说的提出与论证；在当时学术界主流范式下，这些观点所遭遇的巨大阻力与争议。此外，还谈到了了Google Brain团队的关键合作、硬件选择（GPU与TPU）的曲折、早期应用场景的开拓、以及吴恩达对AI未来、教育和工作的看法。

吴恩达教授回忆，在21世纪初，主流学术界专注于发明新算法，而他提出的“通过扩大神经网络规模来提升性能”的观点被认为是缺乏学术严谨性的“堆砌硬件”。这一反共识的观点最终被证明是开启深度学习革命的关键钥匙。吴恩达受神经科学启发，提出可能存在一种通用学习算法，能处理视觉、听觉等所有不同类型的数据。预言了今天“基础模型”的核心思想。此外他还指出，一项技术如果脱离了应用场景，便毫无价值；AI得以成功的原因之一在于它的包容性，AI距离完全自动化大多数人的所有工作还非常遥远。

不被看好的强化学习与单一算法假说

您能和观众们分享一下您那篇与众不同且令人印象深刻的研究生论文是关于什么的吗，包括它在技术层面的趣味点以及您具体实现了什么？回顾我们在X讨论启动Google Brain项目时，我记得您的核心论点有两点。第一是，规模至关重要，尽管当时还没有人真正成功实现过规模化，这一点尚未得到证实。第二是关于大脑用相似区域处理来自感官的不同信号，您当时是否提出了一个问题：要求一个系统去处理许多截然不同的任务，是否反而能让它变得更强大、更智能，而不是更脆弱？

吴恩达：我在Berkeley 攻读博士学位的论文，是构建了一个小型的神经网络来控制直升机飞行。我想这在当时非同寻常，因为强化学习现在非常热门，但在那时却无人问津。我最终说服了一些朋友让我使用他们的直升机，然后用我们发明的一个小算法训练了一个小型的神经网络，让它在空中稳定悬停。它悬停得非常稳固。所以当观看它的视频时，你会分不清这究竟是动态影像还是一张静态照片。我认为那太酷了。这件事让强化学习在当时获得了远超以往的关注。而且，飞直升机本身也很有趣。那段经历很有趣。我认为自己很幸运，我做的许多事都是不走寻常路，尝试一些新奇的东西。有时候这些尝试不会成功，这是探索未知时的一部分。但一旦成功，就像那个直升机的研究成果，它就获得了大量的关注，并在当时推动了强化学习领域的发展。

（关于规模至上的争议）我想说，在那个时候，这一点在学术上确实还没有被证实。事实上，我记得去参加 NeurIPS 会议，我到处和人说，我们必须扩大深度学习算法的规模。结果我从一些非常资深的前辈那里得到的建议是：“嘿 Andrew，你为什么要去构建更大的神经网络呢？去发明新算法吧。” 所以当时这个想法其实饱受争议。是的，我记得是在 2010 年向 Larry Page 推荐了后来成为 Google Brain 的项目，但大约从 2008 年起，我就开始在各个学术会议上宣扬这个观点。在那个时候，“规模”这个概念实际上是很有争议的，人们并不相信。一些非常资深的前辈还善意地劝我，我记得 Yoshua Bengio 就说：“嘿 Andrew，这样做对你的职业发展不利。”

（关于单一学习算法的说法）这可以分为两个部分。核心是“单一学习算法”的假说。我的灵感来源于一些神经重连的实验。这些实验表明，如果一个人不幸大脑某部分受损，其他部分的大脑组织，是同样物理性质的脑组织，可以学会之前由受损部分负责的功能，比如用原本处理听觉的脑区去“看”。这让我不禁思考，当然不只我一个人，我们是否真的需要为视觉、听闻以及所有这些不同的任务开发完全不同的软件或算法？还是说，可能只存在一种学习算法，只要给它不同类型的数据，无论是文本、图像、音频还是其他什么，它就能学会如何处理这些数据。

现在回想起来，我认为这个“单一学习算法”的假说，最终被证明其正确性远超其错误。但再反思一下，我觉得我当时可能过分强调了从神经科学中寻找灵感。事实证明，来自神经科学的许多具体细节并没有太大帮助。但是，这个更高层面的想法，即人类大脑可能用一种算法处理许多事情，因此我们应该尝试让计算机也只用一种算法，而不是让一万个人去发明一千种算法，或许可以让一个小团队只发明一种算法，然后给它喂养各种截然不同的数据，这个想法最终非常成功。这个想法在当时被认为是异端邪说，但现在却成了大家都在遵循的准则。没错，我至今还记得有一次在美国国家科学基金会的一个研讨会上发言，我当时在谈论“单一学习算法”假说。那时我还很年轻，言语间可能有点嘲讽那些在计算机视觉领域做“手工工程”的人。我记得一位非常资深的计算机视觉研究员当场站起来对我大声斥责。作为一个年轻教授，那次经历给我造成了一点心理创伤。不过，多年后再回首，你看结果还不错。

在神经网络被冷落的年代，靠“秘密数据”坚持了下来

在2010年甚至更早的2008年，神经网络在AI领域的大部分时间里仍然是过时的技术。对于将神经网络作为一种表示形式，您当时有什么看法？如今这已是理所当然，但当时它远非主流。另外在早期您坚持下去的信心是什么？

吴恩达：神经网络在学术圈长期处于被冷落的境地，被许多AI研究者排斥。事实上，回想起来，当时要在顶级会议上发表一篇关于神经网络的论文非常困难。这也是为什么我早期的许多工作都发表在各种研讨会上，而不是主会议上。我想，在那个年代，学术界的兴奋点在于，你要通过非常复杂的数学推导、提出一个极为聪明的想法，或许再证明一个定理，才能在顶级会议上发表论文，并以此赢得同行的尊重。这时我出现了，说：“我们不如搞一大堆计算机，把模型做得更大。”这种想法被认为是：“天啊，这有什么学术严谨性可言？你这不就是在堆砌硬件吗？为什么要做这种事？”所以我认为这个想法在当时争议极大。

坦率地说，我后来亲眼目睹，随着扩大深度学习规模的做法开始真正奏效，一些花了二十年职业生涯去微调算法的研究者，他们在情感上遭受了巨大的冲击。因为他们将几十年的心血都投入到了用各种精巧的方式调整算法上。然后，一群像我这样的人出现了，我们说：“我们建一个超大型计算机，然后把海量数据喂给它。”当我们的方法开始超越他们几十年的智力成果时，这对他们来说确实非常艰难。他们中的许多人后来也适应了，并继续做出了很好的工作。但是，当颠覆性的创新出现，让你为之奋斗了半生的东西变得过时，人们有时需要很长时间来调整适应。

事实证明，我们第一篇推动使用GPU来扩大神经网络规模的论文，这是当时另一个备受争议的想法，最终也只能发表在一个研讨会上，因为根本无法被主会议接受。而现在，人人都知道应该使用GPU，这已经是不言自明的常识了。我认为当时一件有趣的事情是，我们有一小群人，不只是我，也包括在加拿大CIFAR会议上的Geoff Hinton等人，我们当时正在生成的数据已经显示出非常强劲的势头。很多时候，颠覆性创新在初期确实无法与现有技术抗衡。我们当时训练的神经网络，性能肯定比不上传统的计算机视觉算法或传统的文本处理算法。但我们心里清楚，我们正走在正确的道路上，因为它虽然还不具备竞争力，但正在飞速进步。我和我在Stanford的学生们都预见到，只要我们能构建出更大规模的版本，它就一定能变得有竞争力。这正是我们当时决心下的赌注。

（关于坚持的信心来源）因为我有“秘密武器”，就是数据。其实也并非秘密，我们都发表了，只是其他人不相信而已，所以跟秘密也差不多。我的学生 Adam Coates 和 Honglak Lee 制作了一张图表，横轴是模型的规模，纵轴是模型的性能，我们测试了大量的不同模型。在那项研究中，我们尝试的每一种模型，其性能曲线都是稳定地向右上方攀升的。所以我基于数据确信，我们能构建的模型越大，其性能就会越好。我认为，作为一名科学家或创新者，你不能靠询问所有人的意见然后取一个平均值来做出卓越的工作。听取他人意见固然可以，但最终，你必须有自己坚信的假说。而我的假说，正是由我们在Stanford生成并发表的数据所塑造的。但不知为何，我当时很难让人们注意到这一点。所以，在其他团队也投身于此之前，我们在扩大规模这条路上实际上获得了很长时间的领先优势。

对GPU的再思考

Google Brain开始筹建后，Jeff Dean成了您项目中的得力搭档，你们是如何相遇和展开合作的，又是如何分工的？Jeff为Google带来的重大贡献之一，是将在浩如烟海的信息中精准查找内容这一挑战进行分解。这种“分解问题，再整合结果”的模式，与你们训练更大规模神经网络的工作原理是否惊人地相似？GPU和TPU分别是什么吗？

吴恩达：我感到非常幸运，Jeff Dean能加入这个项目。当时在Larry Page的指示下，我和Sebastian Thrun正在筹备这个项目。Larry让我去和Google内部的许多人交流。我记得我与Jeff Dean、Greg Corrado、Tom Dean、Jeff Yagnik等许多人都聊过。我向Jeff推销了我的想法：只要我们能构建更大的神经网络，一切都会变得更好。正是这个想法点燃了Jeff的热情。随着项目的推进，我们所有参与项目的人都明白，如果能让Jeff更深入地参与进来，他将为项目带来不可估量的价值。所以，我不知道我们中是否有人跟Jeff提过这件事，但我们私下确实讨论过，比如我和Greg Corrado会商量：“我们该怎么做才能让Jeff保持兴奋，让他持续投入进来？”我们总是想方设法确保他兴致高昂，并希望他能参与得越来越多。幸运的是，他确实这样做了。当他深度参与进来，我们每天一起探讨问题时，他自然而然地成为了系统方面的负责人。毕竟，他构建了Google的大量基础设施，对系统规模化有着极为深刻的理解。而我则成了机器学习方面的负责人。我认为，正是这种我带来机器学习专业知识、Jeff带来计算机系统专业知识的伙伴关系，才使我们能够利用Google的基础设施来大规模扩展机器学习算法，并最终取得了实实在在的成果。

当时Jeff发明了名为MapReduce的技术，其核心就是将一项任务分解，分配到大量的计算机上并行处理，最后再将结果汇总。这是我们早期进行训练时采用的第一代方法。之后，我们不断迭代，开发出更多版本，最终催生了像TensorFlow这样的框架，可以说，我们的技术栈一直在持续演进。不过，我必须承认，在Google，我们有一件事做得比较慢，那就是拥抱图形处理单元。这部分是因为Google当时已经拥有了非常强大且成熟的中央处理器计算基础设施。

（关于GPU和TPU的定义）大多数计算机的核心是CPU，也就是中央处理器。而GPU，即图形处理单元，最初是为了处理计算机图形而设计的，但后来被发现它在训练超大规模的AI系统或超大规模神经网络方面效果绝佳。至于TPU，它是Google的一项发明，更确切地说是Google Brain团队的发明，是Google针对训练这些超大规模神经网络而自主研发的专用硬件。你说得对，是张量处理单元。

Google Brain团队做出了许多非常明智的决策。但有一个决策我希望能更早地做出改变，那就是关于GPU，乃至后来的TPU的决策。我记得当时Jeff和我与许多负责构建Google大规模集群的数据中心运营商进行过交流。那时存在一个很合理的担忧：如果我们开始在各处零星地部署一些GPU，就会造成一个高度异构化的计算环境，这会让整个环境的管理和使用变得非常困难。当时，我们已经看到GPU的效果很好。实际上，在Google Brain项目的早期，我们从事语音识别研究时，就有一两台GPU服务器。我至今还能回想起那台机器的样子：放在某人的办公桌下面，周围缠绕着一堆乱糟糟的线缆。通过那台计算机，我们确实看到了GPU的潜力。但从Google数据基础设施的视角来看，他们有一个担忧：当时Google已有一套计算基础设施，能让开发者写的代码几乎在任何地方无缝运行。但GPU是种截然不同的硬件，它的引入意味着程序员必须为其编写专门的代码。因此当时我们在考量：如果我们采购大量GPU，除了训练AI模型，它还能用于YouTube视频转码吗？它还有其他价值吗？

我想正是因为这些考量，我们当时有所迟疑，没有像我本应做的那样，在Google内部更积极地推动GPU的应用。最后，我反倒是在我斯坦福大学的研究小组里用GPU做了一些演示，因为那是一个灵活的“草根”团队，基础设施乱一点也无所谓。不过话又说回来，我们用CPU也取得了相当大的进展。后来，当Brain团队逐步转向GPU并着手构建TPU时，事实证明这条路最终也走得非常成功。

为规模化设计的注意力机制与首批商业落地

Transformer的正式发明是在Google Brain离开X之后，在此之前，您是否观察到一些其雏形或类似的工作？Transformer在注意力机制上的创新之处是什么？在初创期，是如何挑选出几个主攻方向的呢？是否曾因为某些方向进展不佳或商业价值有限而放弃？

吴恩达：关于Transformer论文，其绝妙之处在于，我认为时至今日，这一点也只有少数人真正理解，它的作者们是在Google Brain那种注重“规模”的传统中成长起来的。因此，在构建Transformer网络架构时，许多决策都围绕着一个核心目标：设计一个能在GPU上实现卓越伸缩性的神经网络。比如其中的注意力机制，就是一种非常巧妙的设计，它能让一个神经网络决定应该关注一个句子中的哪个部分。

（关于Transformer的注意力机制）在Transformer论文出现之前，主流算法的工作方式是：比如说，当你要将一个英文句子翻译成法文时，算法会先读完并试图记住整个英文句子，然后再一口气生成完整的法文译文。这种方法在一定程度上是可行的，但非常难，尤其是当句子很长时。而Transformer论文则提出了一种创新的架构：它在生成译文时，会始终保留着完整的英文原文。在写法语句子的过程中，它可以根据当前正在生成的位置，动态地将注意力聚焦到英文原文中相应的特定部分。事实证明，要实现这种动态关注，即同时审视原文和已生成的部分译文，来决定下一步该看哪里，需要巨大的计算量。但正因为这种计算模式在GPU和TPU这类并行硬件上具有极佳的伸缩性，所以它的效果非常出色。

后来，这套机制也成为了现代基础模型的基石。如今我们所做的，可以看作是一种更广义的“翻译”：不再是从用户的提示“翻译”成用户所提问题的答案。Transformer论文之所以能取得如此辉煌的成功并获得巨大关注，很大程度上是因为其作者们极其巧妙地设计了神经网络架构，确保了每一步计算都具备高度的并行性，从而能在GPU上高效运行。这就为模型提供了一个理想的计算平台，使其能利用海量数据进行训练，进而取得卓越的效果。

（关于如何选择主攻方向）我刚到X时，最早做的事情之一，就是在Google内部开了一门关于神经网络的课程。如果我没记错的话，当时是和Tom Dean、Greg Corrado在这件事上密切合作。这门课后来非常成功，我记得有将近100人来参加。我们每周聚会，我在会上分享自己对于神经网络、规模化以及Google Brain项目背后的一些当时看来还很大胆的想法。幸运的是，这门课帮助我们在整个Google内部赢得了许多支持，结识了很多“盟友”。因此，我们最先达成合作的团队之一就是语音团队。这主要有两个原因：首先，我们认为通过规模化的方法，在提升语音识别能力方面存在巨大潜力。

正是语音识别，也就是识别音频中的讲话内容，然后准确地将其转写成文字。当时，语音搜索还没有今天这么成熟，但“对着手机应用讲话，用语音在Google进行搜索”这个想法，着实令人兴奋。因此，我们希望提高语音转写的准确率。当时，语音团队其实已经在小范围地探索神经网络了，我们感觉通过帮助他们实现规模化，就能推动Google语音识别技术的进步。所以，最终选择与他们合作，在某种程度上也是一个顺势而为的决定，主要取决于谁愿意与我们合作，以及和谁合作最能帮助我们验证“规模化可行”这一核心假设。我们很幸运，既能进行深度技术创新，比如发明新的神经网络架构，同时又被要求在相对较短的时间内拿出真实的业务成果来“问责”。

我记得除了语音项目，我们还参与了Google街景项目，即利用计算机视觉技术识别街景图像中的门牌号，从而更精确地在Google地图中定位房屋。事实证明，这个项目在当时所产生的业务影响甚至比语音识别还要大。我们还探讨过如何赋能广告业务。我还记得，Web搜索团队早期对我们的技术是持怀疑态度的，我当时费了很大力气也没能说服他们。幸运的是，广告团队对此的态度要开放得多。

我记得当时Jeff Yagnik的团队就在YouTube业务中应用AI技术，他们在根据视频内容自动打标签以及内容审核过滤方面，做了大量非常出色的工作。实际上，正因为我之前开的那门大约有100名Google员工参加的课程，许多不同的应用团队都对我们的工作产生了浓厚的兴趣。我们也非常幸运，项目早期想加入Google Brain的人就远超我们的编制名额。所以，当有人想加入但我们又没有全职名额时，我们就会提议：“那不如我们以项目合作的形式一起工作吧。” 这种方式最终促成了大量的合作项目。

从X到Google，离真实的应用场景更近

从您加入X到Google Brain项目“毕业”并入Google，大概还不到两年时间，您当时心里是怎么想的？团队并入Google之后，发生了哪些变化？在那之后，您本人又在Google留任了大概一年半时间，后来您的工作重心也逐渐从Google Brain转移，更多地投入到Coursera的日常运营中了，是吗？

吴恩达：坦白说，你提到的那几种感受都有一些。X过去是，现在也依然是一个非常特别的地方。我记得当年在X大楼办公时，那种感觉真的很棒：离我几步之遥就是当时叫Chauffeur，即后来的Waymo的自动驾驶团队，还有研究上网气球的团队，以及Glass团队。就在我工位的咫尺之遥，这些团队在进行着各种天马行空、极具探索性且激动人心的项目。所以，虽然离开X被官方定义为一次“毕业”和新的开始，而且从结果来看，并入Google核心部门，从而更贴近业务、获得更多资源，这当然不是坏事，我对此毫无遗憾，那确实为我们后来的成功奠定了基础。但与此同时，要离开那栋每天都有各种疯狂又酷炫的事情在身边发生的、充满活力的X大楼，心情也确实有那么一点苦乐参半。

（关于并入Google后的变化）并入Google主体后，团队的目标变得更加聚焦，就是专注在神经网络和规模化这两件事上。我们大概不会再花那么多时间跟Waymo的人泡在一起，也没机会去免费试乘他们当时最早期的原型车了。然后，我想我们变得更，我差点想用“公司化”这个词，但这绝不是贬义。我认为这对Brain团队非常有益，因为我们与Google内部的众多业务部门连接得更加紧密了。我过去和现在都坚信一点：技术本身固然激动人心，我们当然要投身于深度技术的研发，但一项技术如果脱离了应用场景，便毫无价值。它的全部价值都体现在落地应用中。所以，当我们搬进Google主楼后，物理上离许多重要的应用团队近了很多。基本上走一分钟就能找到那些正在开发重要应用的团队，和他们探讨合作。

（关于工作重心的转移）我与联合创始人Daphne Koller基于我在斯坦福大学的机器学习课程创办了Coursera，并负责其日常运营。后来，一方面是由于Google Brain的发展已经走上正轨，我非常有信心能将团队的领导权交接给Jeff Dean，他是一位非常出色的合作伙伴；另一方面，Coursera当时仍处于非常初期的阶段，更需要投入大量的日常管理。于是，我和Jeff进行了沟通，之后花了大约一年的时间，逐步地将Google Brain的领导权交接给了他。幸运的是，这次交接也非常顺利。是的，我目前仍担任（Coursera）董事会主席。

AI的普惠价值将远超模型本身

AI和机器学习的未来将走向何方？您提到每个月孵化一家新公司，一个项目在你们的孵化流程中，通常需要多长时间？基础模型就像新时代的“电力”和“晶体管”，它们能催生出无数的可能性，但关键在于你必须亲自动手，用它们去创造和实践，您是否同意这个类比？您对教育也同样充满热情，能和我们分享一下这份热情吗？

吴恩达：我现在的工作，部分也是吸取了早期在X观察你Astro的运作模式时学到的经验。如今，我的大部分时间都投入在运营AI Fund上，它是一个创业工作室，我们平均每个月会孵化一家新的创业公司。同时，我也会继续通过DeepLearning.AI和Coursera投入大量精力在AI教育事业上。我认为AI领域的发展极其激动人心。像Google这样的公司在打造基础模型方面做得非常出色，最新版的Gemini就是一个很好的例子，团队的工作非常棒。而我个人，则对能在这些基础模型之上构建的众多应用感到无比兴奋。每天激励我工作的，就是那些海量的、很酷的应用机会。在很多领域，都存在着明确的市场需求，可以开发出改善人们生活的应用，只是目前还没有人着手去实现它们。这正是我觉得激动人心的地方。

（关于孵化流程）从一个想法诞生到公司正式成立，整个周期大约是六个月。其中，差不多一半的时间用来寻找和聘请一位CEO。一旦CEO加入，他们会和我们一起工作三个月。这三个月结束后，大约有75%的项目能够成功“毕业”并成立公司，而剩下的25%，则由我们或者他们自己决定不再继续推进。所以，基本流程就是：CEO与我们共事三个月，然后我们正式成立一家创业公司。我认为，AI领域如今的一个巨大变化是，原型验证的成本已经大幅降低。现在，如果你有一个想法，构建一个原型去接触用户，以验证或证伪你的想法，成本非常低。如果想法被证伪了，那也很好，你可能只损失了两天时间和几千美元。这种模式极大地加快了创新的迭代速度，尤其是在应用层，即我们利用AI技术构建具体应用的层面。这与AI的技术基础模型层形成了鲜明对比，后者仍然需要数十亿美元的巨额预算和大规模的数据中心建设投入。

（关于“电力”的类比）回顾美国和其他国家的电气化历史，建设发电厂曾是一项无比宏大且伟大的事业，许多人投身其中并取得了巨大的成功。但如果我们再看消费电子行业，以及那些基于电力制造出来的产品，其总体规模要远远超过发电厂行业本身。AI领域的发展也会遵循类似的规律。构建AI模型本身无疑是一个巨大的产业，规模庞大，但所有基于AI模型开发出的应用，其生态系统的总体价值将会远超模型制造行业。

（关于对教育的热情）我从小受到的家庭教育就是，人生的意义不在于成就自己，而在于成就他人。后来在斯坦福大学教机器学习，我年复一年在同一个教室里，讲授着同样的内容，甚至连课堂上的笑话都一成不变。一段时间后，我开始扪心自问：从帮助学生成功的角度来看，这真的是我时间的最佳利用方式吗？在之后的几年里，我开始另辟蹊径，尝试把课程录制成视频，免费分享到网上，让全世界的人都能看到。我还摸索着开发了自动评分测验这类功能的原型，也从可汗学院的Sal Khan那里学到，在线视频应该做得更短小精悍。实际上，在Coursera一炮而红之前，我大概还做过五个其他版本的在线教育平台，你们可能听都没听说过，其中有些版本甚至只有寥寥二十几位用户。但正是这些宝贵的失败，让我学到了如何构建一个真正可扩展的在线教育平台。当这条路终于走通时，我意识到一个巨大的机会就在眼前：将优质教育带给更广泛的人群。于是，我邀请了我的同事Daphne Koller加入，我们便一起从零开始创建了Coursera。

AI距离完全自动化大多数人的所有工作还非常遥远

在您看来，未来十年有哪些即将到来但人们尚未清楚预见的变革？AI将如何更广泛地影响这个世界？您如何定义AI？Google Brain在X时期的巅峰之作可以说是那篇关于“猫脸识别”的论文，您能否谈谈那项研究的来龙去脉及其技术突破点？您有一个广为人知的关于AI和工作的看法，能否分享一下？

吴恩达：关于未来变革我尤其期待一件事，就是希望看到每个人都能学会编程，尤其是学会使用这种有AI辅助的新型编程方式。在我的职业生涯中，我当然写了海量代码，但在个人生活中，我也会为我的孩子们写一些小程序。比如几周前，我就为我女儿写了个小程序，用来打印乘法表抽认卡，帮她练习。我还花了不到一天的时间，就构建了一个新的应用原型，我可以在手机上调用它，通过给它一个自定义的提示词，让它陪我聊各种话题。许多这样的应用原型，在过去可能需要几周甚至几个月才能开发出来，而现在，可能只需要几个小时，甚至不到一天就能完成，而且自己还不用写太多代码，因为AI可以代劳。

市场对软件工程的需求是巨大的，我们很多人都渴望能有更多的软件被开发出来，但成本一直居高不下。目前，美国50个州里已经有46个将计算机教育纳入了高中毕业的必修课，我希望有一天这个数字能变成50个。因为如果我们能让每个人都学会使用计算机去创造，而不仅仅是消费内容，让他们成为与计算机并肩的创造者，那么每个人的能力都将被极大地增强。事实证明，未来最重要的技能之一，就是让计算机听从你的指令去完成任务的能力，因为计算机正变得空前强大。我坚信，在一个我们用全新的方式教所有孩子编程的世界里，下一代将会比我们这一代强大得多。

（关于AI对世界更广泛的影响）AI有望带来巨大的民主化效应。因为在当今世界，最昂贵的东西之一就是人类的专业智慧。无论是请一位顶尖的专家医生为你诊断，还是请一位高中家教来一对一辅导你的孩子，都需要高昂的费用。尽管我没看到能让人的智力变得廉价的途径，培养一个高技能人才的成本实在太高，但我们却有办法让 AI的成本变得极其低廉。这意味着，在今天，只有少数富裕阶层才能雇佣专业团队为他们服务。但在未来，我希望每一个人都能拥有一支由聪明、博学、信息灵通的AI“员工”组成的队伍，为我们处理各种各样的事情。完全正确。让每个人都拥有一支今天只有富人才能负担得起的“私人智囊团”，这将极大地赋能和提升社会中的每一个人。

（关于AI的定义）AI得以成功的原因之一，恰恰在于它的包容性。虽然AI有时让人感觉遥不可及，但作为一个领域，我们对任何愿意加入并将其工作定义为AI的人都持非常开放的态度。所以对我个人而言，如果有人做的事情能让计算机展现出任何智能的迹象，只要他愿意称之为AI，我都完全赞同。正是因为我们这种相当包容的态度，如果你想把你的工作称为AI，那没问题，而不是有太多人到处去纠正说：“不，那不算真正的AI”，才让我们这个领域能够持续发展壮大。完全正确。当然总会有批评的声音，比如有人会说，一个用if条件语句来做简单判断的程序，这也是一种智能，但这真的算AI吗？我倾向于回答“是”。如果你觉得它体现了智能，那就叫它AI吧，我完全支持。我发现，当一个学科能够拥抱任何行之有效的方法，而不是摆出防御姿态，到处划分“我们”和“他们”时，这个学科往往会更成功。我认为AI就幸运地避免了这种门户之见。

（关于“猫脸识别”研究）我们当时正是通过那篇现在颇有些传奇色彩的“谷歌猫”论文来发布Google Brain项目的。我记得，我们当时的核心想法是，为了获得足够的数据来训练模型，我们希望能够直接从未标签数据中学习。所谓的有标签数据，是指需要投入大量人力，去给图片打上“这是一只狗”“这是一只猫”之类的标签，这个过程非常耗费精力。而我们想让机器直接从未经标注的数据中学习。具体来说，我们构建了一个在当时规模极大的神经网络，很可能是全世界最大的。我们让这个网络去“观看”海量的YouTube视频，直接从视频流中学习，看它到底能学到什么。我记得，当时我的博士生、同时也是Google Brain团队实习生的Quoc Le，有一天他把我叫过去向我展示了一张图像，那是一张有些模糊、如同幽灵般的黑白猫脸。这是算法在观看了数百万段YouTube视频后，完全靠自己“领悟”出的概念，因为大家也知道，YouTube上有海量的猫视频。但是，一个算法，在没有任何人工干预，甚至没人告诉它世界上有“猫”这种生物的情况下，仅仅通过分析海量数据，就自己“发现”了猫脸。这在当时是一个令人难以置信的、里程碑式的突破。

（关于AI与工作的看法）现在每一位知识工作者都可以利用AI获得显著的生产力提升，但AI距离完全自动化大多数人的所有工作还非常遥远。这意味着，AI不会取代人类，但是，善用AI的人将会取代那些不使用AI的人。我这是在转述我的朋友Kurt Langlotz的观点，他最初是针对放射科医生提出这个看法的，但我认为这个道理更具普适性。

时至今日，我无法想象在招聘大多数职位时，会雇佣一个连谷歌搜索都不会用的人，在一个知识经济时代，这简直是天方夜谭。我想，在不远的未来，对于绝大多数职位，我们根本不会考虑雇佣任何不懂得如何高效使用AI的人。但另一方面，薪酬水平最终会与生产力挂钩。AI将使人们的生产力大幅提升，因此我认为，很多人通过熟练掌握AI，不仅不会被淘汰，反而会在经济上获益更多，得到更高的报酬。

| 文章来源：数字开物

• END •

【专栏】精品再读