打开网易新闻 查看精彩图片
复旦大学、哈佛大学和石溪大学的研究团队,用AI和统计方法扒了22种语言几百年的词汇数据,发现了一个能跨语言通用的数学规律——这事儿还登上了《英国皇家学会学报B辑》,给语言演化研究打开了新大门。
研究用的核心工具叫“词嵌入”,简单说就是把每个词变成300维空间里的一个坐标点。意思相近的词,比如“开心”和“快乐”,就在空间里挨得近;意思差得远的,比如“猫”和“火箭”,就离得十万八千里。
这样一来,语言就从看不见摸不着的东西,变成了能被数学精确测量的对象。
打开网易新闻 查看精彩图片
更有意思的还在后面。研究发现,新词从来不是孤零零出现的,它们总是成群结队地冒出来,在语义空间里形成新的聚集区。
真正让研究团队兴奋的,是他们搞出来的那个数学模型。以前大家都知道齐普夫定律——极少数词用得极频繁,大多数词很少用,但这只是单维度的统计。
这次研究把“累积优势”(就是马太效应,越流行的词越被人用)和“冯·米塞斯-费舍尔分布”结合起来,居然能在300维空间和时间维度上,完美重现前面发现的所有规律!
更意外的是,生态学里的泰勒定律(描述生物种群密度的均值和方差关系),居然在词汇的语义分布里也成立!这是泰勒定律第一次在语言学里被验证,也说明语言演化和其他复杂系统(比如生态、城市)之间,可能藏着深层的共性。
这项研究的意义可不止语言学。想想看,音乐风格的变化、科学概念的传播,会不会也遵循这套数学逻辑?
你平时有没有注意到,最近哪些词是扎堆出现的?比如前几年的“内卷”“躺平”,或者现在的“AI生成”“大模型”?
这些新词是不是也像研究里说的那样,组团占领了我们的语义空间?评论区聊聊你的发现,看看大家能不能找到更多语言演化的小线索!
热门跟贴