来源:市场资讯

(来源:图灵人工智能)

您想知道的人工智能干货,第一时间送达

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Mike Stonebraker 是 2014 年图灵奖得主,他对数据库系统的奠基性贡献几乎写进了所有相关教科书。从 Ingres、Postgres,到 Vertica、VoltDB、SciDB,再到最近的 DBOS,每一个都是真正成就了诸多商业公司的工程系统。

最近他做客 Meta 资深工程师 Ryan Peterman 的播客,与其进行了一个小时的对话。他说话直接,不太客气。聊到 Larry Ellison 时,他说那人“把现在时和将来时混为一谈,本质上是在对客户撒谎”;聊到 Google 当年力推的 MapReduce 和最终一致性,他说“那不是 Google 唯一一件愚蠢的事”;聊到亚马逊同时维护着十五个数据库系统,他说“多了十二个”;

打开网易新闻 查看精彩图片

Youtube)

他也表达了对如今 AI 的看法。在他看来,现在多数 agentic AI 还停在“只读”,给一个客户算个分、出个预测,并不真的去改数据库里的字段。一旦 agent 开始做读写,比如两个 agent 协作完成一笔转账,问题就立刻落回数据库的老地盘:事务、一致性、原子性。

说到大模型写 SQL,他甩出来几个数字。在 Spider、Bird 这些公开 text-to-SQL 基准上,最好的模型已经能拿到 85% 准确率,看起来差一步就能上生产。但 Stonebraker 团队用四个真实生产数据仓库做了一个新基准 Beaver,在这个基准上,大模型的准确率是 0;加上 RAG 也只到 10%;把 join 条件直接喂给模型,最多到 35%。同样的任务,一个懂 schema 的 SQL 工程师能做到 90% 以上。所以他的结论是:这项技术,至少在可见的未来,还不够格进生产。

谈及对年轻人的建议,他说如今已不太确定是否要推荐十八岁的小孩去主修计算机科学,“医疗和建筑业是稳妥的选择”。

下面是这次对话的完整内容:

在伯克利,被一个懂门道的人带进门

Peterman:我第一件想聊的事是 Postgres 是怎么起步的。我想从更早的地方开始,你最初是怎么进入数据库这个领域的?

打开网易新闻 查看精彩图片

CODASYL 那套问题一堆。层级太低,调试起来要命。它还有个性质:一旦你的 schema(数据结构定义)有任何变化,基本就得把所有东西扔了重来,因为它整个根扎在物理层面。而 Codd 那套东西完全说得通。所以 Gene 说,咱们就来造一个这样的玩意儿吧,下一步显然该试这个方向。1972 年他开始造 Ingres(INteractive GRaphics REtrieval System)的雏形,那时候我刚到伯克利当助理教授。

Peterman:Ingres 是怎么从一个原型走到真的能用的?

Stonebraker:美国大学里的助理教授一般有五年的考核期,要么熬到终身教职,要么走人。Ingres 就是我拿到终身教职的敲门砖,1976 年我拿到了。

打开网易新闻 查看精彩图片

唯一的出路是开公司。1980 年我们拿到了那个年代意义上的风险投资,成立了 Ingres 公司,把 Ingres 移植到 DEC 公司(数字设备公司,当年的小型机巨头)的 VMS 上,一个真正的操作系统、一家真正能支持产品的公司。这就是商业化旅程的起点。

Larry Ellison 把现在时和将来时混为一谈

Peterman:我看到 Ingres 当时是和 Larry Ellison 的 Oracle 在竞争。从能力上看 Ingres 明显更好,他们怎么还能跟你们争?

打开网易新闻 查看精彩图片

Peterman:有意思。我之前采访过一个在 Sun Microsystems 干过的人,他对 Larry Ellison 的看法也差不多,觉得这人有点不光彩。看来是个共识。我还在某处看到你说过,Oracle 收购 MySQL 的时候,所有人都怕了,转去用 Postgres。

Stonebraker:那就是 Postgres 取代 MySQL、成为首选开源关系型数据库的起点。

一个债券交易员的电话,催生了 Postgres

Peterman:你造了 Ingres,里面有大量技术创新,让它比对手强。但最后它还是没了,你做了 Postgres。Ingres 没做、而 Postgres 做了的那件关键的事是什么?

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

一种数据库不可能解决所有问题

Peterman:你做过一个演讲,后面也有篇论文,讲的是“一种数据库通吃所有场景”是错的,你想要的是针对具体需求的数据库方案。今天市面上你看到哪些数据库还在试图通吃?

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Peterman:GPU 会不会给数据库优化带来什么新机会?

打开网易新闻 查看精彩图片

Peterman:你能解释一下为什么 SIMD 下索引就不那么有效?

打开网易新闻 查看精彩图片

Peterman:你刚才说 B 树。第一版 Ingres 那会儿,这些都是你们手写的吗?那时候应该没有现成的 B 树库。

打开网易新闻 查看精彩图片

那不是 Google 唯一一件愚蠢的事

Peterman:MapReduce 在 2000 年代初出来,在数据世界掀起了风暴,大家觉得 Google 真懂行,这是面包发明以来最好的东西。但我看你当时和你后来的论文,你强烈不同意。为什么?

打开网易新闻 查看精彩图片

Peterman:他们为什么追“最终一致性”?

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Peterman:为什么你说十五个应该只留三个?

打开网易新闻 查看精彩图片

我跟笨人打交道有困难

打开网易新闻 查看精彩图片

Peterman:我想聊一下 DBOS,这是个很有意思的技术模型。能解释一下 DBOS 是什么吗?

打开网易新闻 查看精彩图片

那就是这个学术项目的主旨。我们在 20 年代初在伯克利和斯坦福做这个,做得相当成功,确实能跑通。过程中斯坦福那边给 JavaScript 写了一个扩展,因为你需要某种编程入口跟你的实现对话。

打开网易新闻 查看精彩图片

Peterman:这跟最初那个“用数据库替换操作系统内核”的研究项目相比,是不是收窄了?

打开网易新闻 查看精彩图片

Peterman:今天 DBOS 的客户主要在哪些场景?

打开网易新闻 查看精彩图片

Peterman:那今天向应用开发者交付的 DBOS,跟最初那个“把操作系统内核换成数据库”的研究版本不一样了。这其实挺酷的,我以前没想过把操作系统所有状态都放进数据库。这里一定有什么权衡吧?

打开网易新闻 查看精彩图片

Peterman:那为什么 Linux 不去吸收这个,把自己升级一下?

打开网易新闻 查看精彩图片

在我们的基准上,大语言模型得 0 分

Peterman:咱们聊了很多过去的事,我想知道你怎么看数据库领域那些没解决的问题和未来。

打开网易新闻 查看精彩图片

Peterman:你说 text-to-SQL,意思是人用自然语言对模型说,比如“四岁以上的所有人”这种?

打开网易新闻 查看精彩图片

那区别在哪?

打开网易新闻 查看精彩图片

Peterman:那你们怎么办?

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Peterman:你刚才说的那个基准,LLM 现在拿 0 分,人能拿多少?如果你找一个真懂 SQL 的人,他能打多少?普通人呢?

Stonebraker:一旦把自然语言部分消歧之后,一个懂 SQL、了解 schema 的程序员,准确率会非常高。

Peterman:90% 这个量级?

Stonebraker:至少。

Peterman:好。我挺意外大模型在这种基准上得分这么低。也许这期播客出去之后会有 Anthropic 的人联系你或者怎样。

Stonebraker:我很想知道,因为这会是个很棒的成功故事。

计算机科学不一定还是个增长行业

Peterman:对那些想深入理解数据库的人,你会推荐什么材料?有什么顶级的技术书?

Stonebraker:文献里的论文。我和 Joe Hellerstein(伯克利数据库教授,与 Stonebraker 长期合作)出过一本叫《Readings in Database Systems》的“红皮书”,但已经八年了。作为八年前的读物我觉得它很好。除此之外就是文献里有名的论文。

Peterman:如果你能回到刚毕业那会儿,以你今天知道的事给自己一个建议,你会说什么?

Stonebraker:我刚到伯克利接那份工作的时候,没怎么思考过就说,我们来写一个数据库系统吧。当时我们对数据库一无所知,对实现也一无所知,我们也不是 Bill Joy(BSD Unix 主要作者,Sun Microsystems 联合创始人)那种水平的程序员。开局做这种事,真的相当疯狂。但你硬着头皮干,让它能跑起来,一路上学。所以答案是:跳出框架,想些疯狂的事,去做。

更好的问题是:如果你今天刚开始,会主修什么?因为我觉得计算机科学未来不一定是一个增长行业。我现在不太确定我会推荐 18 岁的小孩去主修计算机科学。

我觉得医疗和建筑这些行业是稳妥的赌注,其他都看起来风险大不少。如果你即将拿到博士学位、要决定接下来做什么,那其实容易:挑你能拿到的最有声望的工作,找一个愿意帮你的导师,选一个不随大流的方向。比方说我们的项目 Rubicon,就是不随大流的。

我和我太太总跟人说,跟随你的热情,钱总会有的。但说实话我一秒钟都不信这话,我觉得这只是你必须告诉孩子和孙子的话。

Peterman:既然你不信,为什么你必须这么说?

Stonebraker:我太太就是个例子。她有计算机科学的硕士和本科学位,但她想做 K-12 老师。她父母说,你不能这么做,赚不到钱。我觉得从那以后她一直后悔这个决定。她对计算机科学没什么热情,只是把它当个手艺干。所以答案是:找你有热情的事做,你不会饿死,可能赚不到大钱,但你大概率会比做你没热情的事更快乐。

我认识很多人把工作仅仅当工作,生活是发生在下午五点到早上八点之间的事。我完全不是这样,我真的喜欢我做的事,赚多少钱不重要。

参考资料:

1. https://www.youtube.com/watch?v=YPObBOwIrHk

排版:胡巍巍

注:封面/首图由 AI 辅助生成