打开网易新闻 查看精彩图片

探索宇宙奥秘 · 理性思考

想象一下,你试图通过分析莎士比亚全集来研究现代人的聊天习惯,结果会如何?大概率是风马牛不相及。

就在最近,中国科学院心理研究所的研究团队干了一件“笨功夫”,却解决了一个大问题。他们发布了一个基于大规模自发言语的汉语学前儿童词汇数据库(CPCSLD)。这项成果近日已发表在心理学权威期刊《行为研究方法》上。

语言学界一直有一个共识:学前阶段是儿童词汇量暴涨的关键期。但是,要精确测量孩子到底能“说”多少词,难度极大。

过去的研究,大多基于“输入性材料”。比如,统计孩子读的绘本里有多少词,或者分析成人常用的词汇有哪些。这种方法虽然省力,但只能反映孩子的“理解能力”。孩子能听懂“复杂”,但他嘴里蹦出来的可能只有“难”。

这就导致了研究数据的失真。我们需要知道孩子在实际交流中,到底产出了什么词汇,频率如何,结构怎样。

中科院心理所的团队这次没有走捷径。他们直接盯着孩子的“嘴”。他们收集了北京地区648名3至6岁儿童的自发言语。这不是简单的录音,而是基于同伴对话情境下的自然流露。

打开网易新闻 查看精彩图片

语料内容极其丰富,涵盖了旅行、玩具、图书、动画等贴近生活的主题。最终,他们构建了一个包含约120万词次、21372个不同词条的庞大数据库。这是首个专门面向汉语学前儿童“表达性词汇”的数据库。

这个数据库的含金量,首先在于它的“颗粒度”非常细。

研究团队按照幼儿园小班(K1)、中班(K2)及大班(K3)三个年龄段,分别构建了子数据库。这意味着,我们可以清晰地看到孩子语言成长的每一个脚印。

数据揭示了一些有趣的规律。随着孩子年龄增长,他们嘴里冒出的多音节词比例越来越高。这说明,孩子的词汇结构正在变得复杂,他们不再满足于简单的单词表达,开始尝试更复杂的句式和组合。

此外,数据库还系统性地提供了词频、词长、词类、音节频率等指标。特别是对于汉语这种声调语言,数据库还区分了1147个带声调音节和400个不带声调音节。

这些细节至关重要。它让研究者不仅能看到孩子“说了什么”,还能看到他们“怎么发音”。对于汉语儿童语言发展研究而言,这提供了一把精准的尺子。

为了验证这个数据库的成色,研究团队做了一项关键的对比测试。

打开网易新闻 查看精彩图片

而在语义判断任务中,CPCSLD的优势就不那么明显了。这反向证明了之前的假设:理解性词汇和表达性词汇在大脑里的存储和调用机制是不同的。

这个发现让心理学界“懂了”:只有基于真实口语产出的数据,才能真正捕捉到言语产生过程中的关键特征。以前的那些“替代方案”,确实存在偏差。

放眼全球,儿童语言数据库的建设已有几十年历史。英语世界有著名的CHILDES等系统,积累了海量数据。相比之下,汉语由于语言结构的特殊性,相关基础数据一直比较匮乏。

以前,国内学者研究汉语儿童语言,往往不得不借用英语的研究范式,或者使用规模较小、标注粗糙的语料。这就像是用外国的尺子量中国的布,总归是不贴切。

中科院这次发布的数据库,标志着中国在心理语言学基础数据建设上实现了重要突围。这不仅是一个数据集,更是研究基础设施的升级。

它的应用前景极为广阔。在临床领域,它可以帮助医生建立标准化的常模,用于语言发育迟缓、自闭症等障碍的早期筛查。如果孩子的词汇产出数据明显低于同龄人的数据库标准,就能及早发现干预。

在人工智能领域,这个数据库也是宝藏。目前的语音识别系统大多基于成人数据训练,对“童言童语”的识别率一直不高。有了这个数据,训练出能听懂小朋友说话的AI将不再是难事。

从基础的词汇统计,到揭示认知机制,再到服务临床与AI,这项研究真正做到了“一叶知秋”。它让我们看到了中国科学家在基础研究领域深耕细作的成果,也为理解人类语言习得的普遍规律提供了珍贵的“汉语视角”。