1970年代,乔姆斯基(Noam Chomsky)的生成语法统治着语言学。那时的计算语言学像一位严谨的图书管理员,试图用有限状态自动机(一种描述语言规则的数学模型)把人类语言锁进符号的抽屉。规则是清晰的,边界是明确的,世界是可控的。

这套系统在1990年代第一次咽气。

统计方法来了。IBM的翻译模型不再追问"为什么",只计算"有多像"。语言变成了概率分布,语法变成了n-gram(一种基于词序列频率的统计模型)的共现矩阵。规则派的老教授们骂这是"炼金术",但机器翻译的错误率确实降了40%。实用主义赢了第一轮。

神经网络把尸体又挖了出来

神经网络把尸体又挖了出来

2013年,词向量(Word2Vec)让词语在多维空间里自动寻找邻居。"国王"减"男人"加"女人"等于"女王"——这种类比推理不是人类写进代码的,是模型自己从数十亿文本中啃出来的。

2017年Transformer架构(一种基于注意力机制的深度学习模型)出现后,事情变得更怪。注意力机制不再拆解句子结构,而是让每个词同时"看见"所有其他词。语言学家花了两百年建立的句法树,被自注意力权重(一种衡量词与词之间关联强度的参数)悄悄绕过。

「我们不再问机器如何理解语言,我们问的是:当机器以十亿token(文本最小单位)的规模参与语言生产时,语言本身变成了什么?」——Riaz Laghari在Quaid-i-Azam大学的讲座中抛出这个问题。他的答案是:符号结构、概率建模、神经表征的三体碰撞。

第三次重生正在发生

第三次重生正在发生

2023年后的局面更复杂。大语言模型(LLM)既能生成符合语法的句子,又会在算术题上犯人类不会犯的错。这种"能力涌现"(emergence)现象让研究者分裂成两派:一派认为这只是规模效应的幻觉,另一派坚持量变已经引发质变。

计算语言学的研究对象正在漂移。它不再只是分析"句子是否合法",而是追踪"模型为何在特定提示下突然崩溃"。提示工程(Prompt Engineering)成了一门新方言——不是人类学机器说话,是机器倒逼人类发明新的表达方式。

Laghari的观察很克制:这个学科的核心假设正在被重写。语言的认知基础、结构本质、意义生成——这些曾经属于哲学和理论语言学的领地,现在成了工程问题的副产品。

最讽刺的转折在2024年出现。

符号派的方法开始回潮,但身份变了。思维链(Chain-of-Thought)技术让模型"一步步思考",本质上是用线性符号序列约束神经网络的跳跃。知识图谱(一种结构化的语义网络)被重新嵌入大模型,不是为了取代注意力机制,是为了给它装刹车片。

三股力量现在拧在一起:符号规则提供可解释性骨架,概率模型填充不确定性血肉,神经网络负责模式识别的本能。没有哪一方能单独存活。

这个领域的老兵正在经历认知失调。他们中的许多人入行时相信语言有深层普遍语法,现在却在调参(调整模型参数)日志里寻找"涌现能力"的阈值。一位从业者在Hacker News的匿名帖子里写:「我花了十年学乔姆斯基,现在我的KPI是让模型别在总结会议记录时 hallucinate(产生幻觉)。」

计算语言学没有变成应用语言学,也没有沦为纯粹的工程。它卡在更尴尬的位置:必须同时理解Transformer的数学结构和人类对话的微妙张力,却不再拥有单一的理论锚点。

语言是什么?这个问题现在有了三个不兼容的答案,而从业者被要求在同一个项目里同时调用它们。这不是方法论多元化,是根基性的混乱——也可能是新秩序的前夜。

当机器生成的文本占到互联网新增内容的60%以上,计算语言学家的研究对象已经包括了自己的造物。他们分析的语言样本里,混着模型去年生成的句子;他们训练的模型,又在消化自己前辈的输出。这个递归循环会把语言带向哪里——是更丰富,还是更贫瘠?