图灵奖得主Mike Stonebraker最近在播客里火力全开,怼遍了行业大佬。
他说Larry Ellison“对客户撒谎”,Google的MapReduce和最终一致性是“愚蠢的事”,亚马逊维护15个数据库“多了12个”。这位数据库领域的泰山北斗,到底凭什么这么敢说?
Stonebraker说话从不绕弯子。聊到Oracle创始人Larry Ellison,他直接戳穿:“那人把现在时和将来时混为一谈,本质上是在对客户撒谎。”
比如关系数据库里的“参照完整性”,解雇员工时要不要删空部门?Ingres早实现了,Oracle却把这个功能写进手册,底下加一行“尚未实现”,让客户当免费测试员。
对Google当年力推的MapReduce,他更不客气:“那不是Google唯一一件愚蠢的事。”分布式数据库明明能把Hadoop按在地上摩擦,却有一群人跟风;Google鼓吹的“最终一致性”,数据库圈没人买账。
东海岸和西海岸仓库同时卖最后一个部件,库存会变负,大多数企业根本承受不起。后来Google自己做Spanner,也彻底放弃了这套。
至于亚马逊维护15个数据库?他直言:“多了12个。”图数据库性能从来不是首选,在关系数据库上加层壳就行;大多数系统都有更优替代,留3个足够,多出来的都是维护成本。
Postgres的诞生,居然和一个债券交易员有关?早年Ingres搞不定GIS的点线多边形,后来1985年,一个客户打来电话:“你们日期时间实现错了!”Ingres用的是格里高利历,但债券利息不管月份天数——3月15减2月15必须等于30天,否则计算利息效率掉三倍。
Ingres写死的类型系统解决不了这个问题,于是Postgres的核心目标诞生:可扩展类型系统。用户想自定义数据类型,甚至重载操作符,都能高效实现。
这才有了今天Postgres成为开源关系型数据库首选的地位,Oracle收购MySQL时,大家都怕了,转头投奔Postgres。
现在大模型写SQL炒得火热,Spider、Bird基准上最好的模型能拿85%准确率,看起来离生产只差一步?Stonebraker团队用四个真实生产数据仓库做了个新基准Beaver,结果大模型准确率是0!加RAG也才到10%,把join条件喂给模型最多35%。而懂schema的SQL工程师能做到90%以上。
差距在哪?真实数据不在大模型训练语料里;实验室查询才10-20行,生产环境是100行;真实schema混乱,列名是“underscore_z_uppers_andre_blah”这种,还有冗余物化视图。他直言:“这项技术至少在可见的未来,还不够格进生产。”
Stonebraker最近在搞DBOS,最初想把Linux上半部分换成数据库——操作系统大部分工作是管理大规模数据,用数据库技术更合适。学术项目跑通了,但风投说“取代Linux是做梦”,于是转向编程语言和工作流。
现在DBOS支持TypeScript、Java、Go、Python,写出来的程序像普通代码,但自带数据库的好性质:状态持久、事务性、故障转移。
特别适合agentic AI读写场景——比如两个agent协作转账,必须要么都成功要么都回滚,DBOS的原子工作流正好解决这个问题。公司现在卖得很好,客户三分之二在做agentic AI。
Stonebraker对年轻人的建议很反常识:“我不太确定是否要推荐18岁的小孩去主修计算机科学,医疗和建筑业是稳妥的选择。”他觉得计算机科学未来不一定是增长行业,而医疗、建筑这些实体行业更稳定。
他自己刚毕业时,和导师Gene Wong从零做Ingres,疯狂又冒险,但建议年轻人:“跳出框架,想些疯狂的事,去做。”不过选专业要谨慎——他太太有计算机学位却想当老师,后悔没追随热情。他说:“找你有热情的事做,不会饿死,可能赚不到大钱,但会更快乐。”
看完这位数据库泰斗的犀利观点,你有什么想法?大模型真的能搞定生产级SQL吗?你认同他对计算机专业的建议吗?评论区聊聊你的看法,点赞收藏转发让更多人看到这个行业真相!
热门跟贴