大模型的根：Word2Vec的基本原理|vec|上下文|向量|新模型|猜词

大模型的根：Word2Vec的基本原理

白驹谈人机

2025-11-08 00:05 ·北京 ·北京邮电大学人机交互与认知工程实验室主任、博导优质互联网领域创作者

我们用一个生活中的小故事来通俗解释大模型的源头---Word2Vec 的基本原理：

假设你是语言学习机，目标是学会“词语的秘密”

1. 你的任务：理解词语的关系

比如，你知道“苹果”是一种水果，“香蕉”也是一种水果。那么当看到“苹果”时，你应该能联想到“香蕉”，因为它们属于同一类。

2. Word2Vec 的训练方式：通过“猜词游戏”学习

假设给你一本小说的段落（比如《哈利波特》），你的工作是通过以下两种方式“猜词”：

(a) CBOW 方式（根据上下文猜词）
- 输入：一段话中的部分词语（比如“魔法石被__藏在__”）。
- 任务：根据前后文（“被”“藏在”）猜测中间缺失的词（比如“哈利”）。
- 学习效果：你会发现“魔法石”经常和“哈利”“伏地魔”等角色一起出现，从而把这些词在脑海中标记为“相关”。

(b) Skip-Gram 方式（根据词猜上下文）
- 输入：一个词（比如“猫”）。
- 任务：预测这个词前后可能出现的词（比如“喵”“老鼠”“沙发”）。
- 学习效果：你会意识到“猫”通常和“喵”“抓”“宠物”等词关联，因此这些词的向量会在你的大脑中离得很近。

3. 向量空间的秘密

- 每个词变成一个坐标点：比如“国王”对应坐标 (1,2,3)，而“男人”对应 (1,2.5,4)。
- 距离越近=关系越紧密：如果“国王”和“王子”在坐标上很接近，说明它们经常一起出现或有相似含义。
- 神奇的向量运算：比如 `国王 - 男人 + 女人 ≈ 皇后`（类似数学中的向量加减法）。
- 如果模型学得好，即使没见过“皇后”，也能通过已知的词推断它的位置。

4. 训练的诀窍：用“排除法”快速学习

- 负采样（Negative Sampling）：假设你猜词时，不仅要记住正确的答案（比如“哈利”），还要记住哪些词不可能出现在这里（比如“苹果”“电脑”）。
- 这就像考试作弊被抓住一次，下次就不会犯同样的错误。
- 局部更新：每次只调整一点点参数，而不是从头再来，这样学习效率极高。

5. 最终成果：词语的“超能力”

- 举个例子：
- 输入“上海”，模型能输出“东方明珠”“外滩”“陆家嘴”等关联词。
- 输入“北京”，模型可能给出“故宫”“长城”“雾霾”等词。
- 即使没学过“深圳”，但看到“深圳”时，模型也能根据“中国”“城市”“科技”等词的向量，大致定位它的位置。

Word2Vec 的本质是通过大量文本数据，让计算机像人类一样通过上下文“猜词”，逐渐掌握词语之间的隐藏关系。最终，每个词都被编码成一个高维空间的坐标，相似的词在空间中紧紧抱团，形成一张“语义网”。