文/胡铁瓜
就说在三百五十多年前,有个英国老哥,名叫约翰·韦伯,他这辈子都没踏过中国的地界,却愣是吭哧瘪肚熬了好几年,写了一厚本专著,拍着胸脯跟全欧洲的老学究喊:中国的汉语,就是人类最早的那门原装原封的原初语言,就是《圣经》里说的,上帝没打乱人类口音之前,全地球人通用的那套话!
这话搁1669年的欧洲,直接炸翻了整个西方思想界。咱先说说这书的名字,长得跟老太太的裹脚布似的,直译过来叫《历史论文:论中华帝国的语言是原初语言的可能性》,咱今天听着觉得这老小子是不是闲得慌,搁这儿扯犊子?但当时欧洲那帮顶尖的知识分子,是真的正儿八经坐那儿抠细节论证,一点没当玩笑看。
要了解这事,咱就得先整明白,这帮老外当年为啥疯了似的找所谓的“原初语言”?这事儿根儿上就在《圣经》里的巴别塔故事。按《圣经》的说法,大洪水过后,全人类都说同一种话,用同一种语言,大家抱团要建一座能通天的巴别塔,说白了就是想挑战上帝的权威。上帝一看这还了得?直接一挥手,打乱了人类的语言,让大家互相听不懂对方说啥,塔自然就建不成了,人类也从此散落到了世界各地。
那问题就来了,这帮欧洲老学究就琢磨:巴别塔之前,人类跟上帝通用的那套“宇宙通用语”,到底有没有留下来?要是留下来了,到底是哪国话?一开始他们都盯着希伯来语、拉丁语,觉得这俩才是最正统的,结果韦伯直接一拍大腿:别搁那儿瞎找了!就是汉语!
咱今天看韦伯的逻辑,可能觉得有点强行扯犊子,但搁当时的欧洲语境里,那真是把无数老学究给震住了。按《圣经》的年表,大洪水来的时候,诺亚带着老婆、三个儿子和三个儿媳,一家八口人登上了方舟,躲过了灭世的洪水,成了全人类的新祖宗。而咱汉字里的“船”字,你拆开来看,左边是个“舟”,就是小船的意思,右边的“㕣”拆开,正好是“八”和“口”——一艘舟上,坐着八口人,这不就跟诺亚方舟的故事严丝合缝对上了吗?
不光是“船”字,当时还有传教士带回去的其他汉字,也把这帮老外给看傻了。比如“婪”字,上面是个“林”,下面是个“女”,他们一琢磨,《圣经》里亚当和夏娃不就是在伊甸园的林子里,受了诱惑偷吃了禁果,才有了人类的贪婪吗?这不就正好对上了?还有“塔”字,左边是土,右边是“荅”,拆开是“合”和“口”,他们说,这不就是大家合起伙来用同一种口音建巴别塔吗?
咱今天看这些,就当个历史趣闻听个乐呵,知道这是老外拿自己的文化往汉字上硬套,但当时的欧洲人是真信啊!韦伯还在书里补了个核心推论:大洪水之后,只有跑去建巴别塔的那拨人,被上帝打乱了语言,而咱中国人的老祖宗,压根就没去凑这个热闹,早早就跑到东方的土地上定居了,自然就把人类最初的那套原初语言,完完整整给保留下来了。
这话一出,直接在欧洲掀起了一股“汉语热”,连当时欧洲鼎鼎有名的大学者莱布尼茨都着了魔。要知道,莱布尼茨那可是和牛顿齐名的主儿,微积分的发明者,那是欧洲顶尖的大脑。他看了韦伯的书,还有传教士从中国带回去的汉字、《易经》的资料,直接就陷进去了,天天跟在中国的传教士白晋写信,追着要汉字的详细资料。他甚至在《论中国人的自然神学》里明确写过,汉字是一种“全人类都能懂的普遍文字”,哪怕你说的话不一样,只要你认识汉字,就能明白对方的意思,这不就是巴别塔之前,人类梦寐以求的那种通用语吗?
可能有人说了,这都是三百多年前的老黄历了,咱今天唠它有啥用?哎,你还别不当回事,这事儿往深了唠,你就会发现,这帮老外为啥几百年了,一提起汉语就觉得邪乎,总觉得这玩意儿自带一种高维度的信息量,根本不是他们那套字母文字能比的。
因为语言这东西,说到底就分两大派,一派是表音文字,一派是表意文字。现在全世界绝大多数语言,什么英语、法语、德语、西班牙语,全都是表音文字,唯独咱的汉字,是当今世界上唯一还在十几亿人里大规模通用的表意文字。很多人其实根本没闹明白,这俩玩意儿的底层逻辑,差得可不是一星半点,那根本就不在一个维度上。
咱先说说表音文字,说白了,这玩意儿的核心逻辑特别简单,就是用二十多个字母,给声音做编码。啥意思?就是一串字母拼在一起,唯一的作用就是告诉你它该怎么读,你先把它的音读出来,再通过这个读音,去对应你脑子里死记硬背下来的那个意思。
咱举个最通俗的例子,就跟训练牲口似的,你对着马喊“驾、驾、驾”,时间长了它就知道是让它往前走,你对着猪喊“噜、噜、噜”,它就知道你要给它喂吃的。你看,这里的“驾”和“噜”,本身跟“往前走”“吃饭”没有半毛钱关系,它就是一个固定的声音,你用这个声音,对应了一个固定的意思。表音文字的本质,就是给这些声音做了一套统一的编码,让大家看到同一串字母,能发出一样的音,仅此而已。
但这里有个致命的问题:这套字母编码,和它指代的那个东西,本身没有任何本质上的关联。前阵子我刷红迪网,就看见个美国小伙子发的帖子,说自己学汉语学到“百叶窗”三个字的时候,直接被整破防了。他说,“百叶窗”这三个字摆在一起,哪怕他从来没见过这东西,也能瞬间脑补出画面:上百个像叶片一样的薄片,装在窗户上,甚至能想象出阳光透过叶片缝隙洒下来的样子。
但你再看英语里的百叶窗,叫“blinds”,这个词跟窗户、叶片、阳光有半毛钱关系吗?完全没有。它就是一个冷冰冰的发音代号,你看见这个词,大脑里得先把它转化成声音,再通过声音去调取你死记硬背下来的那个物体形象,平白无故多拐了一道大弯。更有意思的是,这个“blinds”还有“盲人”的意思,一个词俩完全不搭边的意思,你不背,根本就不可能知道。
咱再举个更接地气的例子,就说咱东北人冬天顿顿离不开的“酸菜”。你看这俩字,“酸”是味道,“菜”是食材,俩字放一起,哪怕你是个从来没吃过酸菜的南方朋友,也能瞬间明白,这是个带酸味的菜,对吧?但你看英语里的酸菜,叫“sauerkraut”,我的妈呀,一大串字母,你把它拆碎了,能看出来它是个啥?跟酸有关系吗?跟菜有关系吗?啥也看不出来,你只能死记硬背,背错一个字母都不行。
这种“直接表意”的特性,让汉字成了全世界信息密度最高的主流语言,没有之一。咱说句实在的,很多人都不知道,咱中国人常说的“学会三千个常用字,走遍天下都不怕”,这话真不是扯犊子,是有实打实的数据撑着的。
根据国家语言文字工作委员会发布的《现代汉语常用字表》,还有这么多年来对国内主流报刊、书籍、网络文本的汉字覆盖率统计,有个特别明确的结论:你只要掌握了1000个最常用的汉字,就能覆盖日常书面语里92%左右的内容;掌握2000个常用汉字,覆盖率直接冲到98%以上,要是你掌握了3000个常用汉字,那就能覆盖99%的现代汉语文本。
啥概念?就是一个中国孩子,只要小学毕业,正常掌握了3000个常用汉字,他就能无障碍地看新闻、读小说、刷文章,甚至去翻《论语》《史记》这样的古籍,也能看懂个大概。哪怕遇到从来没见过的新词,比如“人工智能”“航天器”“新能源”,只要他认识组成这几个词的汉字,就能立刻明白这个词是什么意思,根本不用特意去背、去查字典。
那换了英语呢?咱也不瞎编,就看美国布朗大学语料库、英国兰卡斯特大学对英语词汇覆盖率的权威统计数据:英语里最常用的3000个单词,哪怕算上它们的时态、词性变形,也只能覆盖日常文本里84%左右的内容,就算你辛辛苦苦背到5000个单词,覆盖率也只能到88.6%。
想要流畅地读一本原版小说、看一篇主流媒体的深度报道,你至少要掌握8000到10000个英语词汇,而一个英语母语的成年人,想要做到真正的无障碍阅读,平均需要掌握2万到3.5万个单词。这就意味着,一个老外哪怕背了3000个英语单词,扔进英语环境里,依然和文盲没什么区别,看新闻看不懂,读小说读不懂,甚至连个产品说明书都看不利索,遇到一个没见过的单词,就只能抓瞎。
咱就说这个对比,够不够直观?你学3000个汉字,就能当文化人了,你学3000个英语单词,还是个睁眼瞎。有个网友说的特别形象:咱学的是语言的“十三代源码”,人家学的是“编译后的执行程序”。表音文字是一维的线性编码,只能顺着发音一条道走到黑,而汉字是高维的立体编码,它在一个完整的意义网格里定位信息,每一个汉字,都不只是一个字,而是一个活着的、能无限组合的意义单位。
更要命的是,随着社会的发展,新事物越来越多,表音文字的词汇量只会像滚雪球一样越滚越大,根本没有尽头。出现一个新东西,汉语只需要用现有的汉字组合一下就行,根本不用造新字。咱就说一个“电”字,有了电之后,就有了“电脑”“电视”“电话”“电梯”“电网”“电车”“电池”,你不需要重新学新的字,只要把核心的“电”字往上一摆,哪怕是没上过几天学的人,猜也能猜个八九不离十。
老外就不行了,电脑是computer,电视是television,电话是telephone,电梯是elevator,电网是power grid,电车是tram,电池是battery,这几个词之间有个毛线逻辑关系?这就像你家里添一件新家具,就得重新学一个八竿子打不着的新名字,毫无规律可言,只能死记硬背。
现在《牛津英语词典》里收录的单词,已经超过了60万个,而且还在以每年几千个的速度往上涨。有人做过统计,莎士比亚时期的英语,词汇量也就几万,现在直接翻了几十倍。咱就琢磨琢磨,再过一百年,英语的词汇量说不定就突破百万了,到时候别说外国人学英语了,就算是英语母语者,也得一辈子不停背单词,不然分分钟就被时代淘汰。
还有个更有意思的点,就是同音词的问题。很多人杠,说汉语同音词多,容易混淆,其实恰恰相反,汉语的同音词,靠汉字直接就给区分开了,根本不会混。比如“公式”“攻势”“工事”,这三个词读音完全一样,你光听发音可能分不清,但是一写出来,每个词的意思都明明白白,一点不会乱。
但表音文字就不行了,比如英语里的“there”“their”“they're”,读音完全一样,写出来也差不了多少,别说外国人了,就是英语母语者,写的时候都经常写错。还有“flower”(花)和“flour”(面粉),读音完全一模一样,你光听发音,根本不知道对方说的是花还是面粉,只能靠上下文猜,这不就麻烦了吗?
咱再说说联合国的文件,这事儿很多人都知道,联合国的六种官方语言,中文、英语、法语、西班牙语、俄语、阿拉伯语,同样一份文件,永远是中文版本的最薄,页数最少。为啥?就是因为汉语的信息密度太高了,同样的意思,用汉语只需要最少的字符就能说清楚。有专业机构做过统计,同样的内容,中文的篇幅大概只有英语的60%左右,你说哪个效率高?
不光是传统的书面语,现在到了数字时代,人工智能大模型爆发的年头,汉语的优势就更明显了。现在的大模型,都是靠token(令牌)来处理内容的,一个汉字大概对应1.3个token,而一个英语单词,平均要对应2到3个token。同样的指令,用中文写,token数更少,大模型处理起来速度更快,准确率也更高。有业内的人做过测试,同样的任务,用中文输入,大模型的处理效率比英语高了将近40%,你说这玩意儿牛不牛?
可能有人又说了,你说的这些都是现在的事儿,那三百多年前的韦伯,为啥说汉语是原初语言?他除了那个诺亚方舟的巧合,到底还看到了啥?咱说实话,真正让这帮老外震撼到骨子里的,从来都不是什么神学巧合,而是汉字那种能跨越几千年时光,核心本意纹丝不动的超稳定性,这在表音文字的世界里,根本就是不可能发生的奇迹。
咱就说,今天你随便走进一家博物馆,看见殷墟出土的甲骨片,上面刻着三千多年前的甲骨文,哪怕你不是学考古、学古文字的专业人士,也能认出不少字。比如“日”,甲骨文就是画一个圆圈,中间加一个点,明明白白就是太阳的样子,“月”就是一弯月牙的形状,“山”是三个连在一起的山峰,“水”是流动的波纹。哪怕经过了甲骨文、金文、小篆、隶书、楷书几千年的演变,这些字的本源依然清晰可见,我们今天看到它们,依然能一眼明白是什么意思。
最有代表性的,就是“中国”这两个字。目前我们发现的最早的“中国”二字,刻在西周早期的何尊上,也就是那句著名的“宅兹中国”,距今已经有三千多年的历史了。三千多年前的古人刻下的“中”和“国”,我们今天依然能认出来,依然能明白这两个字的核心含义,依然能感受到当年的周人,对天下之中的那份认同。
这种跨越千年的传承性,在世界上所有的语言里,都是独一份的,没有任何一个能打。咱就拿英语来对比,你让一个普通的英国人,去看莎士比亚的原文,那不过是四百多年前的东西,现在哪怕是英国本土的大学教授,看着都头疼。为啥?因为四百多年里,英语的发音、语法、单词的意思,全变了。
比如莎士比亚原文里的“quick”,不是我们今天说的“快”,而是“活着的”的意思,“let”不是“让”,而是“阻止”的意思,“meat”不是“肉”,而是“食物”的意思。普通人拿起来,跟看天书没什么两样。那要是再往前推,六百年前乔叟的《坎特伯雷故事集》,那更是彻底的外语,哪怕是英语母语者,不经过专门的系统学习,一个句子都读不懂。要是再往前推一千年,古英语的《贝奥武夫》,那跟现在的英语,根本就是两门完全不同的语言,除了专业学者,没人能看懂。
四百年的时间,就让一门表音文字变得面目全非,而我们的汉字,跨越三四千年,依然能被普通人轻松识别,这在老外看来,根本就是神迹。咱就琢磨琢磨,为啥汉字能做到?因为我们彻底躲过了表音文字致命的“语音漂变”劫难。
表音文字的命门,就绑在语音上。语音是一定会变的,随着时间推移,人口流动,朝代更迭,人们的口音一定会变,一代人跟一代人的发音不一样,一个地方跟一个地方的发音不一样。而记录语音的那些字母,一旦发音变了,就成了历史的僵尸,后人根本无法通过几百年前的拼写,对应到今天的词义,自然就读不懂前人的文字,文明也就断了。
但汉字是表意的,它直接跳出了语音这个泥潭。哪怕这个字的读音,在一千年里换了十几种读法,哪怕你在北京说普通话,在广东说粤语,在福建说闽南语,在东北说东北话,发音天差地别,甚至互相之间都听不懂对方说啥,但是只要写出来,字形是一样的,核心意思就永远不会变。
咱就说,东北人跟广东人唠嗑,可能一个说“你瞅啥”,一个说“你睇咩嘢”,互相听着跟外语似的,但是一拿出笔写字,“你看什么”,俩人全懂,一点障碍没有。你再看欧洲,西班牙人和葡萄牙人,住的地方就隔了一座山,说话发音稍微有点不一样,就成了两门完全不同的语言,写出来的字母也不一样,互相之间都快看不懂了。还有法语、意大利语、罗马尼亚语,全都是拉丁语演变来的,就因为发音变了,就成了不同的语言,原来的拉丁语,现在除了教会和学者,没人会说了,这不就是文明断了吗?
而汉字这种超稳定性,带来的是一种足以震撼人心的体验:一种超越线性时间的、可以直接与古人对话的通感。两千五百多年前,《诗经·小雅》里写下了十六个字:“昔我往矣,杨柳依依。今我来思,雨雪霏霏。”今天咱们读起来,不管你是在东北还是海南,不管你读成什么口音,那个画面瞬间就会涌到眼前——春天的风拂动着柳条,一个即将远行的人站在路口,衣袖被风吹起,满心都是不舍,等他打完仗返乡的时候,已是寒冬,大雪漫天飞舞,天地间一片苍茫,物是人非的沧桑感扑面而来。
文字就是这样,它把那一刻的风、那一刻的人、那一刻的情,像琥珀一样完完整整凝固住了。哪怕我们跟那个写诗的无名士兵,从未谋面,相隔了二十多个朝代,几百场战火纷飞,就因为这十六个字,我们能在完全不同的时空里,拥有一模一样的感动。
咱再举个更熟悉的例子,李白的“床前明月光,疑是地上霜”,距今已经一千三百多年了,现在的小学生都能读懂,都能感受到那种深夜里的思乡之情。杜甫的“国破山河在,城春草木深”,距今一千二百多年,我们今天读起来,依然能感受到安史之乱后,他心里的那种悲痛和无奈。苏东坡的“但愿人长久,千里共婵娟”,距今快一千年了,我们今天中秋的时候,依然会用这句话来表达思念。
这些一千多年前的文字,我们今天读起来毫无障碍,甚至能和古人产生强烈的情感共鸣,这种事儿,在表音文字的世界里,根本就不可能发生。你让一个今天的英国人,去读一千年前的英语诗歌,他根本就看不懂,更别说共情了。
咱再说说汉字里藏着的那些情感和智慧,很多字,你拆开来看,就能明白老祖宗的道理。比如“孝”字,甲骨文的写法,上面是个“老”字,下面是个“子”字,儿子扶着老人,就是孝,这个意思,几千年了,从来没变过。比如“友”字,甲骨文是两只手握在一起,互相帮助,就是朋友,到今天,这个意思依然没变。比如“忍”字,心上一把刀,那种咬着牙扛着的隐忍,那种克制不住的疼痛,全藏在这一个字里,不用任何解释,一眼就懂。
比如“家”字,屋檐底下有头猪(豕),在农耕时代,家里有牲口,有烟火气,有安稳的日子,就是家,直到今天,我们看到这个字,依然能感受到那份温暖的归属感。比如“愁”字,就是心上的秋天,万物凋零的萧瑟与悲凉,扑面而来,不用多说,你一看就懂。
这种“可视化”的情绪、逻辑和温度,在拼音文字里是绝对不可能实现的。表音文字是冷冰冰的约定俗成,是强行绑定的发音和意义,而咱们的汉字,是有生命的,是有态度的,是带着几千年的文化记忆和情感温度的。
咱说句掏心窝子的话,很多人天天写汉字、说汉语,反而把这玩意儿的神奇给用麻木了,就跟天天呼吸空气似的,不觉得它有多金贵。甚至还有人说,汉字难写,不如26个字母简单,还有人觉得文言文过时了,是老掉牙的糟粕,当年甚至还有人嚷嚷着,要把汉字彻底拉丁化、拼音化,跟国际接轨。现在回头看看,真的是后背发凉。
如果当年我们真的那么做了,今天咱们的孩子会面对什么?他们会读不懂唐诗宋词,看不懂诸子百家,两千多年的历史典籍,会变成一堆只有专家才能破译的天书。他们再也无法通过“举头望明月,低头思故乡”,感受到李白的乡愁,再也无法通过“大江东去,浪淘尽”,感受到苏东坡的豪迈,再也无法通过“先天下之忧而忧,后天下之乐而乐”,感受到范仲淹的家国情怀。那才是真正的文化断层,才是真正的丢了根。
可能有人抬杠了,说啥高维低维的,不就是个说话写字的玩意儿吗?还分高低?所有语言都是平等的!这话没错,每一种语言都承载着自己民族的文化,都有自己的价值,没有贵贱之分。但我们不能否认的是,汉字和表音文字的底层逻辑,从来都不在一个赛道上。表音文字是一套记录声音的工具,而汉字,是一套承载文明的系统。
三百多年前,约翰·韦伯隔着万里重洋,从汉字里看到了人类原初语言的影子,三百多年后的今天,我们每天都在使用着这门语言,写着这些方块字,却常常忽略了它背后藏着的,跨越了几千年的智慧和力量。
我们总说,要文化自信,自信从哪里来?不是从空喊口号里来,是从我们每天都在使用的汉字里来,是从我们能读懂两千多年前的古人的文字里来,是从我们的文明从未中断的传承里来。
可能那个三百多年前的英国老哥说的是对的。汉字,确实是一门来自更高维度的语言。因为它从来都不只是写在纸上的符号,它是我们文明的根,是我们民族的魂,是能让我们和几千年前的祖先,始终活在同一个时空里的,跨越千年的密码。
热门跟贴