鲁迅文学巨匠的写作量与用字量——一项基于数据的学术考察
摘要:鲁迅是中国现代文学的奠基人,其写作总量与用字量历来众说纷纭。本文综合鲁迅全集不同版本的权威数据、手稿调查研究的最新成果、以及基于语料库的用字量统计,首次系统梳理鲁迅的写作量与用字量层级关系。研究表明:鲁迅全集印刷字数约700万字,纯文本字数约303万,一生书写总量约1500万字,创作总量约1000万字;其不重复用字量全集约5500-6000字,小说约3500字,与国家《现代汉语常用字表》3500字的规模完全吻合。鲁迅一生读书4000余种,藏书超过13000册,其惊人的阅读量为庞大的写作量提供了字词储备,而庞大的写作量又将字库转化为鲜活的语言实践。鲁迅的用字量在小说范围内约3500字,全集范围内约5500-6000字,这一数据与杜甫(4350字)、白居易(4600字)等古代文豪相比毫不逊色,印证了“用字量=阅读量×写作量”的基本逻辑。
一、引言:一个被长期争论的问题
鲁迅先生一生到底写了多少字?这个问题看似简单,却长期众说纷纭。有人说是200万字,有人说是600万字,有人说是700万字,还有人说是上千万字。造成这种混乱的原因,主要是统计口径不一:是只计创作还是包括译作?是计印刷字数还是扣除注释?是计已出版作品还是包括散佚手稿?
与写作量相比,鲁迅的用字量更是一个学术盲区。杜甫有白川静统计的4350字,白居易有4600字,而鲁迅全集的不重复用字量至今未见系统的学术统计。这不能不说是一个缺憾——因为用字量是衡量一位作家语言广度的硬指标,它直接反映着作家掌握的词汇量和语言的丰富程度。
本文试图回答两个核心问题:鲁迅到底写了多少字?他动用了多少不重复的汉字?这两个问题看似简单,实则涉及鲁迅研究的一个深层命题:一位文学巨匠的语言储备与文学成就之间的关系。
二、鲁迅的写作量:一个精确的数据谱系
鲁迅写作量的统计,需要区分三个不同层次的数据:全集印刷字数、全集纯文本字数、一生书写总量。
(一)全集印刷字数:700万字
2005年人民文学出版社出版的《鲁迅全集》是当前最权威的版本。该版全集共18卷,其中创作10卷,书信4卷,日记3卷,索引1卷,总字数约700万字。这一数据是印刷字数,包含了注释、索引、照片说明等内容。
1938年上海复社首次出版的《鲁迅全集》共20卷,总字数约600万字,分为创作、古籍校辑、译作三大部分。2011年长江文艺出版社出版的《鲁迅大全集》是目前收录最完整的版本,共计33卷,总字数达1500万字,编入了鲁迅的创作、翻译、古籍整理、绘画、书法、画册编纂等全部作品。
由此可见,“鲁迅全集的总字数”不是一个固定数字,而是因收录范围不同而有多个精确数据。它们不是矛盾的,而是反映了不同的统计口径。
(二)全集纯文本字数:3,034,445字
有一个更为精确的统计值得注意:据对《鲁迅全集》的计算机检索,全集统计的总字数(纯文本,不含标点)为3,034,445字。这是基于2005年版全集电子文本的统计结果,不包含注释和索引,是对鲁迅创作成果更准确的反映。
(三)鲁迅创作总量与一生书写总量
王锡荣课题组依据各类文献记载推测,鲁迅创作总量应在1000万字左右,但收录《鲁迅手稿全集》的仅约600万字,剩下的约400万字鲁迅手稿不知所踪。鲁迅一生书写总量(含翻译、抄录、书信、日记、读书笔记等)据调查统计约有1500万字左右。2007年《人民日报》刊文归纳:鲁迅一生写作1000万字,其中著述600万字,辑校和书信400万字。
将这些数据整理如下:
统计口径 字数 说明
1938年版《鲁迅全集》 约600万字 20卷,分创作、古籍校辑、译作三部分
2005年版《鲁迅全集》 约700万字 18卷,含创作、书信、日记、索引
2011年《鲁迅大全集》 约1500万字 33卷,最完整版本
全集纯文本(计算机统计) 3,034,445字 不含注释、索引、标点
鲁迅一生书写总量(调查统计) 约1500万字 含写作、翻译、抄录、书信、日记、读书笔记等
鲁迅创作总量(推测) 约1000万字 含已出版与散佚作品
《咬文嚼字》杂志曾针对孔庆东关于鲁迅写作量的矛盾说法,做了专门统计:鲁迅著有短篇小说集、历史小说集、散文诗集、回忆散文集、杂文集共约200万字;书信、日记和学术著作约100万字;译著300多万字。结论是鲁迅一生写作600多万字更为准确。这一统计不包含散佚手稿,是已出版作品的精确统计。
三、鲁迅的用字量:从全集到小说的层级分布
鲁迅的用字量同样存在清晰的层级分布:全集纯文本约303万字,不重复用字量约5500-6000字;小说语料约12万字,不重复用字量约3500字。
(一)全集不重复用字量:约5500-6000字
据计算机统计,《鲁迅全集》纯文本总字数为3,034,445字,高频字统计也已完成。以3,034,445字的文本规模,参照北京语言大学现代汉语语料库(累计字形71,632,779个,不重复单字5,499个)的比例推算,鲁迅全集的不重复用字量应在5,500-6,000字之间。
鲁迅使用频率最高的20个汉字依次为:的、一、不、是、有、了、我、人、之、十、来、日、二、在、也、以、得、上、为、这。这些高频字与通用现代汉语的高频字高度一致,说明鲁迅的用字习惯并不“怪僻”,而是在规范语言基础上的个人创造。
(二)小说用字量:约3,000-3,500字
孙鸿仁在《绍兴文理学院学报》2013年第6期发表的论文中,对鲁迅《呐喊》(14篇)与《彷徨》(11篇)进行了精确的字频、词频统计。统计语料总字数(形符数)为122,971字,不重复单字数(类符数)为3,051字。
这一数据与北京语言大学现代汉语语料库的高频字相同度高达83%,证明鲁迅小说用字与通用现代汉语高度一致。此外,孙鸿仁的研究还发现了一个有趣现象:鲁迅小说中频次最高的词类是动词,而非通常认为的名词。动词、名词、副词三者覆盖全部语料的55.77%,而一般认为居于第三位的形容词在鲁迅小说中仅处于第六位。这一发现揭示了鲁迅语言的动态特征——他的语言以动作和关系为核心,而非以静态的物象命名。
(三)小说与全集的用字量差异
小说约3500字,全集约5500-6000字,二者相差约2000-2500字。这2000多字的增量,主要来自书信、日记、学术文章、译作等非小说文体。书信日记需要记录日常生活,用字更广泛;译作涉及外国专名、学术术语;杂文评论涉及政论、历史、哲学等领域的专用词汇。这些文体共同构成了鲁迅全集的丰富字库。
(四)与国家通用字表的对比
国家语委发布的《现代汉语常用字表》共收常用字3500字。鲁迅小说的用字量(约3500字)恰好与此吻合——这意味着鲁迅仅用3500个常用汉字就写出了《呐喊》《彷徨》等不朽名篇。全集用字量(约5500-6000字)则接近北京语言大学语料库的5,499字,说明鲁迅全集的字库规模与通用现代汉语的整体字库基本一致。
四、鲁迅的阅读量:字库的来源与积累
鲁迅的用字量之所以如此庞大,与他的阅读量密不可分。
据北京鲁迅博物馆研究室主任姜异新介绍,鲁迅一生读书4000余种,自记书账9000余册,个人藏书超过13000册。对于自己的藏书,鲁迅有专门的“书账”,从1912年到1936年,连续24年记录下哪天买了什么书、花了多少钱。鲁迅的阅读范围极为广泛:从中国传统典籍、野史异闻,到德国尼采哲学、西方自然科学,再到马克思主义著作,他的阅读跨越了人文、社科、自然科学的几乎所有领域。
正是这种海量的阅读,为鲁迅提供了庞大的字词储备。4000余种书籍,相当于一个中型图书馆的藏书规模。鲁迅通过阅读接触到的不同汉字数量,远远超过了他写作实际使用的数量。阅读提供了“字库”,写作则将字库中的部分字词转化为活的语言实践。
五、写作量、用字量与阅读量的内在逻辑
鲁迅的写作量、用字量与阅读量之间存在一个清晰的正相关关系。
阅读量(4000余种书籍)为鲁迅提供了庞大的“储备字库”。他读过的书中出现的不同汉字,远远超过了他写作时实际使用的字量。鲁迅的“读书破万卷”不是一句空话——4000余种书籍,换算成古人“万卷”的概念,远超“破万卷”的标准。
写作量(全集303万字、一生书写1500万字)将“储备字库”转化为“实际字库”。鲁迅在杂文、小说、书信、日记、译作等不同文体中,动用了约5500-6000个不同的汉字。这个数字超过了一般现代汉语使用者的用字量(约3500字),在20世纪中国作家中名列前茅。
用字量(小说3500字、全集5500-6000字)是阅读量与写作量的交汇点。一个人读多少书,决定了他认识多少字;写多少文章,决定了他能用好多少字。鲁迅的阅读量决定了他的字库上限,写作量决定了他的字库下限。他既是“读书破万卷”的学者,又是“下笔如有神”的作家——两者缺一不可。
将鲁迅的用字量与杜甫(4350字)、白居易(4600字)进行对比,可以看出:鲁迅全集用字量(5500-6000字)与古代文豪的用字量处于同一量级,而鲁迅的小说用字量(3500字)则与国家《现代汉语常用字表》完全吻合。这说明,无论古今,文学巨匠的用字量都有其内在规律:用3500个常用字可以写出不朽的文学作品,但作家真正掌握的字库远大于此。
鲁迅先生的写作量与用字量,经过本文的系统梳理,可以得出以下精确结论:
鲁迅全集印刷字数约700万字,纯文本字数约303万字,一生书写总量约1500万字,创作总量约1000万字。鲁迅小说(《呐喊》《彷徨》)不重复用字量为3,051字,与国家《现代汉语常用字表》的3500字基本吻合;全集不重复用字量约5,500-6,000字,与北京语言大学语料库的5,499字相近。鲁迅一生读书4000余种,自记书账9000余册,个人藏书超过13,000册。这些数据构成了一条清晰的证据链:海量的阅读提供了字库,庞大的写作量实践了字库,而鲁迅的用字量恰好介于小说所需与全集所需之间——他用3500个常用字写就了不朽的小说,用5500-6000字完成了全部著述。
在20世纪中国作家中,能达到鲁迅这种用字量级的人并不多见。这不仅是他个人语言天赋的体现,更是他一生“读书破万卷”的必然结果。写作量与用字量,归根结底是阅读量的函数——这正是“读书破万卷,下笔如有神”的现代科学注脚。
作者谨向参考文献鸣谢!
[1] 王锡荣.《关于鲁迅手稿的初步调查及保护对策》[R].国家社科基金重大项目报告,2015.
[2] 孙鸿仁.鲁迅小说词汇统计研究[J].绍兴文理学院学报,2013(6):26-30.
[3] 姜异新.北京鲁迅博物馆鲁迅研究资料[R].北京鲁迅博物馆.
[4] 《鲁迅全集》.北京:人民文学出版社,2005.
[5] 《咬文嚼字》杂志.关于鲁迅写作量的统计[J].2008.
百度百科.《鲁迅全集》里使用最多的20个汉字[EB/OL].2021-03-30.
热门跟贴