打开网易新闻 查看精彩图片

文|李添诺

编辑|宋辰

为AI大模型研发提供理论基础和实操指导的Scaling Law(扩展规律),竟然是百度最先发现的,而且比OpenAI提出的时间整整早了三年。

近期,多位海外AI界人士纷纷爆料指出了这一观点。

美国人工智能初创公司Anthropic联合创始人、CEO达里奥·阿莫迪(Dario Amodei)在一档播客节目中提到,2014年他在百度研究AI的时候,就已经发现了模型发展的规律Scaling Law。

 震惊!发现大模型规律的原来是百度
打开网易新闻 查看更多视频
震惊!发现大模型规律的原来是百度

“随着你给它们提供更多数据,随着你让模型变大,随着你训练它们的时间越来越长,模型的表现开始越来越好。”达里奥·阿莫迪在节目中说道,“当时我并没有精确地衡量,但我和同事们都非常非正式地感觉到,给这些模型的数据越多、计算越多、训练越多,它们的表现就越好。”

Anthropic的创始团队是GPT系列产品的早期开发者,达里奥·阿莫迪则曾是OpenAI研究副总裁。2014年达里奥·阿莫迪从斯坦福博士后毕业后加入百度硅谷人工智能实验室(SVAIL),致力于将深度学习模型扩展到大规模高性能计算系统,一直到2015年10月离开。

无独有偶。有行业人士发文称,发现Scaling Law这一理论的其实是百度:“大多数人不知道,关于Scaling Law的原始研究来自2017年的百度,而不是2020年的OpenAI。”

这个断论来自一篇百度2017年发表的论文。百度硅谷人工智能实验室团队在2017年12月发表了名为《Deep Learning Scaling Is Predictable,Empirically》(《经验表明深度学习是可预测的》)的论文,详细讨论了机器翻译、语言建模等领域的Scaling现象。

打开网易新闻 查看精彩图片

但这篇论文的重要性严重被忽视了。OpenAI在其2019年的Scaling Law研究论文中,引述了上述百度论文第一作者Joel Hestness在2019年的后续研究,他曾于2017年~2019年在百度工作。

打开网易新闻 查看精彩图片

不过,正是因为对Scaling Law的早期研究,使得百度多年前便投入了AI大模型研究,并在2019年发布了第一代文心大模型。

那一年,OpenAI亦推出了GPT-1。可见百度和OpenAI等知名AI公司站在同一起跑线甚至跑得更早。当然,这也使得百度成为全球第一家推出生成式AI产品的科技大厂。

大咖科技

Tech Chic

理论前瞻性

“我从事人工智能领域的研究已有大约 10 年了,我很早就注意到了这一点(扩展定律)。”

11月12日,在Lex Fridman的播客节目中,达里奥·阿莫迪探讨了Claude、AI模型的扩展规律、AGI、AI未来等多个话题。其中,在谈到大模型的扩展规律与模型发展时,达里奥·阿莫迪提到他的观察最早来自于此前在百度工作时的相关研究。

达里奥·阿莫迪认为,在AI领域中,扩展模型规模、数据量和计算能力至关重要。他指出,通过增加网络层数、训练时间和数据量,模型的表现会显著提升。

这一观察最早来自他在百度硅谷人工智能实验室工作时对语音识别系统的研究。后来他加入OpenAI后,在GPT-1的语言模型中得到了验证。

达里奥·阿莫迪认为,随着模型变得越来越大,它们能够捕捉到更复杂的语言和认知模式,这一规律不仅适用于语言模型,还适用于图像、视频等其他领域。

2014年底,达里奥·阿莫迪在百度与吴恩达共事时首次进入人工智能世界。他们最先研究的是语音识别系统,当时他认为深度学习还是一个新事物,它取得了很大进展,但每个人都认为还有太多需要探索的东西。

达里奥·阿莫迪回忆,当时他在和团队做研究时问道,如果把它们做大,加更多层会怎么样?如果同时扩大数据规模会怎么样?

“我注意到,随着你给它们提供更多数据,随着你让模型变大,随着你训练它们的时间越来越长,模型的表现开始越来越好。”

当时百度硅谷人工智能实验室高级研究员Greg Diamos对自己的介绍就是,LLM Scaling Law Researcher。

当初达里奥·阿莫迪的想法只是,也许扩展定律只适用于语音识别系统。直到2017年他第一次看到GPT-1的结果时才意识到,我们可以获得数万亿个单词的语言数据,可以对其进行训练。

再看看那篇被低估的论文——它展示了在机器翻译、语言建模、图像处理和语音识别等四个领域中,随着训练集规模的增长,DL泛化误差和模型大小呈现出幂律增长(scaling)模式。

OpenAI 2020年发表的论文《Scaling Laws for Neural Language Models》引用了上述百度论文第一作者Joel Hestness 在 2019 年的后续研究《Beyond Human-Level Accuracy: Computational Challenges In Deep Learning》(《超越人类水平的准确性:深度学习的计算挑战》)。

参与GPT-3等重要项目开发的OpenAI前AI专家格林·布兰文(Gwern Branwen)曾较早注意到了Scaling Law。他经常提起:百度的这篇论文确实被忽视了。

大咖科技

Tech Chic

AI大牛云集

人工智能领域领军人物、斯坦福大学教授吴恩达,前OpenAI时任研究副总裁达里奥·阿莫迪……这些AI领域金光闪闪的名字,都曾出现在百度的员工名单里。而能聚集如此多的AI明星,足以说明百度对AI的决心。

打开网易新闻 查看精彩图片

2013年1月,百度深度学习研究院成立,百度创始人李彦宏亲自出任院长,吸引了Facebook前资深科学家徐伟、AMD异构系统前首席软件架构师吴韧等专家加入。李彦宏认为,“这应该是全球企业界第一家用深度学习来命名的研究院”。

2014年5月,百度硅谷人工智能实验室正式成立,同时任命人工智能专家吴恩达博士为百度首席科学家,全面负责百度研究院,尤其是百度大脑计划。当时,美国权威杂志《麻省理工科技评论》写道:“百度将领导一个创新的软件技术时代,更加了解世界。

2014年,达里奥·阿莫迪在斯坦福博士后毕业后,加入百度硅谷人工智能实验室。之后,达里奥·阿莫迪又招募了Jim fan来百度实习。

Jim Fan是英伟达的高级科学家,他主导了英伟达的具身智能研究。在攻读斯坦福大学博士学位之前,他是OpenAI第一位实习生,师从被誉为“AI之母”的李飞飞教授。

事实上,另一个名字也曾和百度有过交集,就是图灵奖得主、2024年诺贝尔物理学奖得主杰弗里·辛顿(Geoffrey Hinton)。

2012年,李彦宏拿到了一篇题为《ImageNet Classification with Deep Convolutional Neural Networks》的论文,阐述了如何基于深度卷积神经网络,来完成 ImageNet 数据集的分类验证工作,作者正是杰弗里·辛顿和他两名学生。

李彦宏激动之余联系上了杰弗里·辛顿。随后百度提出以1200万美元的价格,邀请他和团队加盟百度。百度此举立马引起美国科技公司的兴趣,在竞拍中,百度虽开出了4400万美元的价格,但还是遗憾地与杰弗里·辛顿擦肩而过。

李彦宏曾在采访中提及这些AI明星在百度的工作往事:“杰弗里·辛顿选择加入谷歌,不是因为我们不愿意出更多的钱,而是他自己更愿意在美国待着。但因为他没有来,我们还是想要真正的大咖能够加入百度,所以就找了吴恩达。”

吴恩达来的理由其实也比较简单,他当时在谷歌做谷歌大脑,想买更多的GPU,谷歌说不行,太贵了。李彦宏说你来,随便买,那他就来了。他来了之后,像达里奥·阿莫迪,他原来是斯坦福的学生加入百度;达里奥·阿莫迪来了之后说,Jim Fan不错,我找他来进行实习。所以一代一代的人,就把优秀的人才能够吸引过来。

图灵奖得主、Meta首席AI科学家杨立昆在《科学之路》中文版的自序中称,“百度是最早部署商业化深度学习系统的大型公司之一,领先于谷歌和微软”。

打开网易新闻 查看精彩图片

过去十多年,百度在人工智能研发上投入资金超过 1700 亿元,是中国科技公司中对人工智能研发时间最长、投入资金最多的公司,放在全球范围内也是佼佼者。

正是因为十多年来对AI的持续投入,以及对未来的坚定,百度才能够完成蜕变。而这是一个比旧日荣光更为激荡人心的商业故事。