英语的词汇量超过100万,汉语的常用汉字只有3500个。

这个数字放在一起,看起来像是汉语在"以寡敌众"。但偏偏就是这3500个字,让中文使用者读得更快、打字更快,还能直接看懂2000年前的秦代公文。

英语世界对这件事普遍感到困惑。而这背后,藏着一场发生在秦汉之际、至今仍在发挥效果的文字革命。

打开网易新闻 查看精彩图片

乱成一锅粥的战国,逼出了这场革命

要理解这场革命,得先知道它在解决什么问题。战国时代,七个国家各过各的日子,连写字都不一样。同一个"马"字,齐国有齐国的写法,楚国有楚国的写法,燕国又是另一个样子——光是这一个字,加在一起能凑出十几种变体。

这还只是一个字的问题。更早的时候,汉字本身就存在一种"越造越多"的内在冲动。甲骨文时代,造字的逻辑是一种事物对应一个专用字。你觉得"马"字多,那只是因为你没见过他们对颜色分类有多细。

纯黑色的马有专字,赤白杂色的马有专字,白腹赤毛的马也有专字。光"马"这个分类下面,就能挖出五十多个独立汉字。

打开网易新闻 查看精彩图片

颜色系统更夸张。鲜红是一个字,深红是另一个字,浅红又是一个字,橘红色再来一个——现代人看这些字,基本跟看天书没区别。

这套造字逻辑如果继续走下去,字库只会无限膨胀。

公元前221年,秦始皇完成统一,立刻面对一个实际问题:帝国怎么管?郡县制从咸阳一路延伸到岭南,每一份政令都需要文书传递,但各地的官吏写的字压根不是同一套系统,公文到了地方等于废纸。

丞相李斯于是提出了"书同文"的方案。核心逻辑很简单:废掉六国的异体字,以秦国的文字为基础,造一套全国统一的书写系统。

打开网易新闻 查看精彩图片

这套系统最开始叫小篆,是官方标准。但官方标准这东西,历来是一回事,基层用起来又是另一回事。实际上在行政文书里,更快用、更顺手的隶书迅速占据了主流——笔画方折,写起来省力,这叫实用主义自然胜出

这场改革的执行速度,到今天还让人惊讶。2002年,考古队在湖南湘西一口古井里挖出了将近四万枚秦代竹简。这些简牍来自一个叫迁陵的小县城,位置在当时帝国的西南边陲,距离咸阳直线距离将近800公里。

打开网易新闻 查看精彩图片

结果发现,这个偏远小县在秦始皇颁布"书同文"政令后的短短数月之内,公文书写已经切换成了标准的秦文字。

另有一枚出土于湖南益阳的竹简,两面书写,一面是楚文字,另一面是秦文字。这枚简本身就像一张时代快照——一面是旧世界,一面是新世界,转折就发生在这么一块薄薄的竹片上

打开网易新闻 查看精彩图片

字少,为什么反而赢了?

从那以后,汉字走上了一条完全不同的路。精简,然后用组合来对付一切新概念。1988年,国家语言文字工作委员会做了一次抽样统计。结果显示,3500个常用汉字,在现代汉语语料中的覆盖率是99.48%。也就是说,你掌握这3500个字,日常读报、看书、聊天,基本上不会遇到不认识的字。

这个数字本身不稀奇,稀奇的是它背后的逻辑——遇到新东西,不造新字,用旧字拼。"人工智能"四个字,每一个字在秦汉时代就已经存在了。"碳中和"三个字,同样是古老的字。新概念用旧字装,字库不需要扩张,人的记忆负担也不增加。

打开网易新闻 查看精彩图片

英语走的是另一条路。英语词汇量能膨胀到100万以上,背后是一连串历史偶然叠加的结果。1066年诺曼征服,法语进来了,带来几千个新词;文艺复兴时期,拉丁语和希腊语又进来了一批;殖民时代,印度语、非洲语言、日语,各贡献了一些。每出现一个新概念,就得造一个新词或者借一个外来词。

这套机制没有刹车。

一个普通的美国大学生,需要掌握两三万个词汇才能应对学术阅读。这还只是"应对",离真正流畅还差得远。而且这个数字是个动态的——英语每年还在新增大量词汇,学习者必须持续追赶。

打开网易新闻 查看精彩图片

这两条路走到信息时代,差距就更具体了。

阅读速度是一个可以量化的维度。中文母语者的日常阅读速度,大约是英文母语者的1.5倍,快速浏览的时候差距更大。原因不复杂:汉字是等宽的方块字,眼睛扫过去节奏均匀;英文单词长短不一,碰到长词得多停一下。

输入效率上,差距更直观。打"人工智能",拼音输入法敲四下就出来了。打英文"artificial intelligence",22个字符,还要注意大小写和空格。

在手机上聊天,这个差距每天都在发生,只是我们从没刻意想过这件事

打开网易新闻 查看精彩图片

它同时解决了两个问题

汉字系统真正厉害的地方,不只是它压缩了词汇量,而是它同时解决了两个在其他文字系统里几乎无解的问题:空间问题和时间问题。先说空间。

中国的方言分裂程度,远超大多数人的认知。粤语和闽南话这两种方言,口语上能听懂对方的比例,不到一半。如果拿欧洲做类比,这基本相当于两门不同的语言。

但这两个方言区的人,写出来的字完全一样。"高铁""人工智能""你好",书面上分毫不差,沟通没有任何障碍。这种"口语各说各的、书面统一在一起"的机制,在语言学上叫"言文分离",是汉字系统一个极其特殊的属性。

打开网易新闻 查看精彩图片

里耶秦简已经证明这件事在2200年前就成立了。那个偏远小县的官吏,口音和咸阳官员大相径庭,但公文里的每一个字,和首都发下来的政令是同一套系统。

再说时间。

现代人拿起一份秦代竹简,认出其中大半内容,是完全可能的事情。 两千两百年,字形有变化,笔画有简化,但"日""月""山""水"这些基础字,核心结构始终没有断。

英语不是这样的。英语母语者读莎士比亚,400年前的英文,就已经觉得磕磕绊绊了。要是拿出一段公元1000年左右写成的古英语,现代英语使用者看了,会以为自己在看一门外语。

打开网易新闻 查看精彩图片

当然,这场革命本身不是没有代价。

秦朝推行书同文的同时,也在焚书,也在打压不服从的知识分子,六国的文字系统就此基本失传。这个代价是真实存在的,历史的胜负从来不是干干净净的。

但扣除这些代价之后,剩下的东西仍然是一套至今还在运转的系统。

英语世界之所以很难理解汉字的这套逻辑,是因为他们从来没有面临过这样的选择——历史上没有哪个力量强制要求他们把词汇压缩到3500个核心单元,然后用组合来解决一切。他们走的是另一条路,走了1000多年,已经回不了头了。

而我们用的这套系统,架子是2000多年前搭起来的,到今天还没坏

打开网易新闻 查看精彩图片