语言模型到底是什么？|rnn|乔姆斯基|神经网络|语言模型

有人问你：语言模型到底是什么？怎么解释？

如果说，它是一种预测生成自然语言的模型，能够理解一个人标的问题，然后给出答案。你可能略听懂一二，但想深入理解就难了。怎么办？

我们不妨从研究者视角，来看看他们眼中的语言模型。

01

以前，人们研究语言时，常使用「自动机」这个概念。

乔姆斯基就提倡大家用自动机来研究语言，自动机的工作原理是：如果你说的一句话是对的，它就接受；如果是错的，它就拒绝。这就像写一个程序，用来判断句子是否正确。

但语言模型的想法有些不同，它认为，句子并不是非黑即白的，而是有一定的“软性”。

比如：你说“中国的首都是北京”，这句话是对的，概率很高。但如果你说“美国的首都是北京”，虽然这句话在语法上没问题，但事实是错误的。

语言模型不会直接拒绝它，而是认为它的概率比较低。

语言模型会把句子中的每个词（比如“中国”、“首都”、“北京”）组合起来，计算它们的联合概率。如果我们能准确预测这个联合概率，就说明我们对语言的理解比较准确。

这里有一个重要的信念：如果我们能通过联合概率模型判断出“中国的首都是北京”是对的，而“美国的首都是北京”是错的，那么这个模型就具备了一些类似人类的知识。

也就是说，人工智能可能就隐藏在准确预测联合概率的过程中。所以，如果我们能把语言模型做好，就相当于获得了人工智能的能力。

当然，关于这方面，有不同的观点。

比如，伊利亚（OpenAI的ChatGPT团队）认为，只要你能准确预测下一个词，就意味着你对现实世界的理解非常准确。

但也有反对的声音，比如图灵奖得主Judea Pearl，他研究的是因果推理，他认为仅仅通过统计来预测语言是不够的，真正的理解需要通过因果推理来实现。

所以，语言模型争论从1960年的符号主义出现，到1980年，一直在争论。

后来，基于统计学的NPL出现后，后来人们称它为“自回归模型”，它的目标不是直接预测整个句子的联合概率，而是把这个联合概率拆分成多个条件概率。

简单来说，就是通过前面的词来预测下一个词。比如，我们要说一句话：“Today is Monday。”这句话没问题，那么它的概率是怎么算的呢？

首先，第一个词“Today”出现的概率是多少？然后，在已知第一个词是“Today”的情况下，第二个词“is”出现的概率是多少？接着，在已知前两个词是“Today is”的情况下，第三个词“Monday”出现的概率是多少？

把这些概率乘起来，就得到了整个句子的概率。这种方法叫做「自回归」。

自回归模型概念最早可以追溯到乔治·尤尔（George Udny Yule）在1927年的研究工作，直到20世纪70年代这个想法才进一步得到验证。

不过，实际操作中，这种建模方式有点难。

因为如果句子特别长，后面的词需要依赖前面很多词，而语料库中恰好出现一模一样句子的概率很低。

所以，大家通常会用“n-gram”语言模型来简化问题。“n-gram”模型是什么意思呢？就是限制一下，只看前面的几个词。比如，1-gram就是只看当前词，每个词独立统计概率。

举个例子：

如果我们用《人民日报》的语料来建模型，统计每个字出现的概率，然后按这个概率随机生成句子。这样生成的句子可能不太通顺，但如果逐渐增加n-gram的长度，比如到4-gram或5-gram，生成的句子就会更通顺，甚至有点《人民日报》的味道。

不过，n-gram模型也有问题。如果n设得太大，比如5-gram或6-gram，需要的语料量会非常大；因为连续五六个词一起出现的情况比较少见，必须有足够多的数据才能支持这种模型。

后来，人们基于自回归发明了更好的方法。

1966年，鲍姆和韦尔奇提出了隐马尔可夫模型（HMM）及其训练方法；其实，n-gram模型很早就有，1913年马尔可夫就用它来预测词了；但HMM直到1966年才被发明出来，真正应用到自然语言处理中已经是1989年了。

再后来，Rabiner等人写了一篇经典文章，教大家如何在语音识别中使用HMM，这篇文章被引用了很多次，成为了非常经典的工作。

这说明，从技术发明到实际应用，往往需要很长时间。

02

到了2000年，语言模型的发展逐渐进入快车道，人们发现，越来越多的模型效率更高，效果更好，能够更好地建模语言。比如，2000年时，有人开始用神经网络来预测n-gram的概率。

具体来说，就是把前面N个词输入神经网络，得到一个中间结果，再把这些结果拼起来，通过另一个神经网络预测下一个词。

这听起来有点“暴力”，但效果确实不错。这篇文章也成为用神经网络建模语言模型的开山之作，被引用了上万次，非常重要。

再过十年，到了2010年，人们开始用循环神经网络（RNN）来建模语言模型。

RNN好处是，它不受n-gram的限制。n-gram只能看到前面N个词，而RNN理论上可以记住历史上所有的词，虽然实际使用时，由于梯度消失等问题，效果并不理想。

RNN的模型也很难训练和调试。这一年，Mikolov等人做了一些经典工作，推动了RNN的应用。

到了2014年，序列到序列学习（seq2seq）出现了。它用LSTM（长短期记忆网络）来解决语言模型中的梯度消失问题。LSTM通过增加记忆单元，能够记住更久远的信息。seq2seq与之前的模型不同，它有一个“读”的过程。比如：

用户输入一个句子“ABC”，模型会从这个句子开始预测回答。这种模型引入了编码器和解码器的概念，为后来的语言模型奠定了基础。

2017年，Transformer模型出现了。

它的核心是注意力机制，但更重要的是，它找到了一种适合大规模扩展的神经网络结构。以前的RNN和LSTM很难做大，训练速度慢，而Transformer训练速度快，容易扩展。这使得模型规模可以变得非常大。

到了2020年，大家熟悉的GPT-3和GPT-4出现了。

他们的一个重要贡献是提出了“缩放定律”：模型越大，效果越好。另一个突破是，它将所有自然语言处理（NLP）任务统一到一个模型中。

以前，不同的任务（比如分类、实体识别）需要不同的模型，而GPT-3认为，所有任务都可以看作语言模型问题。这为探索通用人工智能提供了新的思路。

总的来说，语言模型的发展经历了从神经网络到RNN，再到LSTM、Transformer，最后到GPT的过程。每一步都在推动技术的进步，让我们离通用人工智能更近了一步。

简单讲，大语言模型从出现到现在主要的三个时期是：

一，结构主义语言学迈向行为主义语言学；二，基于乔姆斯基启发，符号主义NLP出现；三，大家发现符号主义不是正确路线后，统计NLP才开始出现，最后，技术的各种研究到了奇点时，Transformer架构出现。

实际上，语言模型的发展过程中，我们受到了乔姆斯基的影响。

中间有一段时间，大家主要研究“生成语言学”，也就是用符号逻辑来分析语言，这种研究方式持续了一段时间，但也导致了发展速度的放缓，甚至可以说是一个低潮期。

后来，人们发现统计方法才是正确的方向。

于是，语言模型的发展速度逐渐加快，特别是最近几年，随着计算能力的提升，我们可以训练越来越大的模型，也找到了更适合的模型结构。这使得语言模型的发展速度在近几年呈现出爆炸式的增长。

03

了解完整个模型历史脉络后，我们不妨思考下：为什么要研究语言呢？

首先，我们要理解语言与其他信息形式的不同之处。

在研究通用人工智能时，语言为何成为重点？这是因为语言与智能之间有着独特的紧密联系，这种联系是其他信息形式所不具备的。

乔姆斯基认为，语言是思考的工具。

他提出，要理解人类心智，必须研究语言，因为语言与心智密切相关。他的观点与我们有所不同。

尽管人类的语言机制存在许多歧义和低效之处，但如果将其视为思考的工具，就会发现它实际上非常有效。因此，乔姆斯基认为语言是思考的工具。

而我们的主要观点是“压缩论”。

人工智能可以表现为一种压缩的形式，语言之所以重要，是因为人类之间的交流主要依赖于语言，我们没有更好的替代方法。然而，语言交流的带宽其实非常低。

有一项研究指出，无论使用何种语言，人与人之间交换信息的速度大约为每秒40个比特，这个速度相当低。你可以想象，以这种速度下载一部电影需要多长时间。

因此，为了有效地交流，人类必须对信息进行压缩。压缩信息会损失很多细节，这促使我们形成了许多抽象概念。

这些概念使我们对世界的认知变得更加概念化，换句话说，语言是推动我们产生抽象认知的环境压力来源。为了与他人交流，我们必须思考事物背后的规律和本质。这就是语言如此重要的原因。

举个例子：

谢氏家录讲的是谢灵运。谢灵运生活在魏晋南北朝时期，当时他在官场上不太顺利，被贬到了温州，也就是现在的永嘉。据说，谢灵运每次见到他的弟弟慧莲，就能写出优美的诗篇。

有一次，他在温州的屋子里待了好几天，怎么也写不出诗来。突然有一天，在迷糊的状态下，他见到了弟弟，灵感一来，就写出了“池塘生春草”这句诗。他说这是神助，不是他自己的话。

我们可以想象一下，谢灵运被贬到温州后，心里很苦闷，有很多情感想要表达，他见到弟弟时，弟弟并不知道他的心情。

于是，谢灵运通过提炼，写出了简短的诗句，通过这种方式，用很低的信息传递量，把情感传达给了弟弟，虽然弟弟理解的场景可能和实际的不一样，但精神是一致的。这体现了人类在信息压缩上的高智能。

再比如，不同语言对颜色的描述也有所不同。

现在大家都知道，颜色可以用色相、饱和度和亮度这三个维度来描述。

有人统计过，世界上不同的语言用哪些词来描述颜色；比如，我们有红色、黄色、粉色等词汇。但在自然界中较少的蓝色和紫色，我们用的词汇就比较少，这反映了概念化的过程。

语言对我们的认知也有直接影响，这一点可以通过实验来测量。有人研究过俄国人对颜色的认识，因为俄语和英语在描述蓝色时有所不同。英语中，我们通常把蓝色都称为“blue”，然后说这是浅蓝或深蓝。

而俄语中，深蓝和浅蓝是两个完全不同的词。实验发现，当给俄国人看两个颜色时，如果两个都是深蓝或浅蓝，他们分辨起来比较慢。

但如果一个是深蓝一个是浅蓝，他们分辨得就比较快。这说明语言对认知有影响。如果在他们分辨颜色时，再给他们一些语言上的干扰，这种速度优势就会消失，分辨速度会变慢。

所以，通过实验可以观察到，语言确实对我们的认知功能有深刻的影响。

04

其二，语言的重要性不可言喻。

如果没有语言，人类的高级思考活动可能就无法进行，语言是思考的基础工具，它与我们人类的知识和文化有着深刻的联系。

比如，我们的文化和科技成就都是通过语言来传承的。你可以看到，很多知识和智慧都蕴含在语言中。

以我们中国人和美国人的思考方式为例，他们是不同的。为什么呢？

因为我们有很多成语和典故，这些都影响了我们的思维方式。比如，当一个同学在研究中遇到困难，转而去打游戏时，我们可能会说他“玩物丧志”。

虽然大家都知道这个词，但你知道它背后的故事吗？它源自周武王灭商后，西吕国送给他一条藏獒，他沉迷其中，大臣劝谏说“玩物丧志”，提醒他要专心工作。这些成语虽然简单，却饱含了丰富的历史和智慧。

所以，语言不仅是知识的载体，还是一种高度抽象的符号系统，它对我们的认知有深刻的影响，参与了我们的各种活动。

我们通常认为，语言能力强的人，智能也较高。比如，在招学生时，我们更喜欢口齿伶俐的同学，因为他们通常能更好地表达自己的想法，做科研时也会更顺利.

另外，从可行性角度来看，相比语音、视觉或视频数据，文本数据的收集成本要低得多，因此，以语言为中心构建人工智能模型更为方便。

这是前几天学习笔记，分享给你，总结时间留给你。

语言模型到底是什么？

01

02

03

04

热搜

热门跟贴

01

02

03

04

热搜

热门跟贴

相关推荐

IBM八大专家预测：现代编程语言是给人类设计的，AI需要类似汇编的原生语言 | AI 2025

这做的啥模型啊

如何从零做一个人工智能大模型项目？

学习离散世界模型用于启发式搜索

2024诺奖：你不吃肉，全世界就会把你吃掉

全球最新排名：DeepSeek-V3夺开源模型第一！是“新瓶装旧酒”还是实质性突破？业内人士详解

斯坦福大学研究：AI在与人类对话仅2小时后即可“再现”个性特征

把AI视为人？错了！DeepMind研究科学家：“模型即计算机”才是未来新范式

在多变环境中学习的简单模型，动态学习率

又一力作！李飞飞团队推出多模态3D人体建模新方法Language-Of-Motion

想解决问题，先重构问题

小学生语文成绩下滑，怎么帮助孩子提升语文成绩？

学习方法不当是一大“元凶”。很多孩子还在死记硬背，背课文虽快

大模型时代，没有超级应用，只有超级智能，为什么？

学习不咋样，暗语倒是一套套的

就为口吃的，至于么

基础这样支模可以不？

人像模型是如何制作的？复杂程度超乎想象，看完大开眼界

首次理论分析，「无线电地图构建」竟是生成问题？西电全新模型，性能全面领先

搞明白中国人的逻辑真的很难