语言怎么演化？AI扫描22种语言后，找到了一条隐藏的数学定律

伴君终老a

2026-05-01 17:06 ·四川

复旦大学、哈佛大学和石溪大学的研究团队，用AI和统计方法扒了22种语言几百年的词汇数据，发现了一个能跨语言通用的数学规律——这事儿还登上了《英国皇家学会学报B辑》，给语言演化研究打开了新大门。

研究用的核心工具叫“词嵌入”，简单说就是把每个词变成300维空间里的一个坐标点。意思相近的词，比如“开心”和“快乐”，就在空间里挨得近；意思差得远的，比如“猫”和“火箭”，就离得十万八千里。

这样一来，语言就从看不见摸不着的东西，变成了能被数学精确测量的对象。

更有意思的还在后面。研究发现，新词从来不是孤零零出现的，它们总是成群结队地冒出来，在语义空间里形成新的聚集区。

真正让研究团队兴奋的，是他们搞出来的那个数学模型。以前大家都知道齐普夫定律——极少数词用得极频繁，大多数词很少用，但这只是单维度的统计。

这次研究把“累积优势”（就是马太效应，越流行的词越被人用）和“冯·米塞斯-费舍尔分布”结合起来，居然能在300维空间和时间维度上，完美重现前面发现的所有规律！

更意外的是，生态学里的泰勒定律（描述生物种群密度的均值和方差关系），居然在词汇的语义分布里也成立！这是泰勒定律第一次在语言学里被验证，也说明语言演化和其他复杂系统（比如生态、城市）之间，可能藏着深层的共性。

这项研究的意义可不止语言学。想想看，音乐风格的变化、科学概念的传播，会不会也遵循这套数学逻辑？

你平时有没有注意到，最近哪些词是扎堆出现的？比如前几年的“内卷”“躺平”，或者现在的“AI生成”“大模型”？

这些新词是不是也像研究里说的那样，组团占领了我们的语义空间？评论区聊聊你的发现，看看大家能不能找到更多语言演化的小线索！

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴