汉字大数据之:汉字笔画

原创安安小小姐姐安安小小姐姐2023-10-31 06:19发表于广东

汉字,是汉语言的记录符号,也是上古时期各大文字体系中的唯一传承者,也是现存唯一的象形文字。

汉字,是由五个基本笔画构成的、大多时候与其本意有直接联系的语言符号。五个基本笔画为:一 (横)、丨 (竖)、丿 (撇)、丶 (点)、乛 (折)。

构成汉字的笔画,有多有少,少者仅有一画,多者达到50画以上。

故,由这5个基本笔画,理论上可以创造出无限多的汉字。那么,目前到底有多少汉字呢?

《通用规范汉字表》收录了8105个汉字,包括3500个一级常用汉字、3000个二级次常用汉字和1605个三级少常用汉字。

国家汉字标准GB18030-2022收录了87887个汉字

除此之外,更新于2022年度的Unicode 15.0标准(适用于全球所有现代软件和通信的基础,包括操作系统、浏览器、笔记本电脑和智能手机,以及互联网和 Web(URL、HTML、XML、CSS、JSON 等)),共收录了98889个汉字。

这近10万个汉字,可以说,是聪明绝顶的学者、专家、教授穷其一生也很难参透的知识体系之一。

但在大数据时代,我们可以借助计算机手段,通过计算机,快速得到关于这些汉字分布的一些规律,比如汉字笔画的分布规律。

下图展示了《通用规范汉字表》中3500个一级常用汉字的笔画分布范围,条形长度表示本笔画的汉字数量。

打开网易新闻 查看精彩图片

认识3500个汉字,能够帮我们理解现存的大部分知识或信息。

这些汉字中,仅有两个由一个笔画构成的(一、乙),另有2个汉字,笔画在23画以上(罐、矗)。

其余汉字中,大约有三分之二的汉字,笔画分布在6画到12画之间。

有人说,3500个汉字太少了,我认识更多的汉字,那就看看GB18030收录的汉字。在此,我们收集了29685个汉字的笔画信息,将其绘制成数据分析图表,如下所示。

打开网易新闻 查看精彩图片

更大范围的汉字笔画表明,8画到16画,才是更多汉字的笔画分布区间。

当然,也收录了一些笔画较多的汉字,比如䨻、龘、䲜、靐等。

你认识这几个汉字吗?其读音分别是:bèng、dá、yè、bìng。你学会了吗?