大语言模型驱动的词典编纂实践革新与理论重构,共同勾勒出面向未来的词典学新范式雏形。
原文 :《大语言模型催生词典编纂新范式》
作者 |黑龙江大学俄语学院副教授 何洋洋
图片 |网络
近年来,大语言模型的快速发展对词典学产生了深刻影响。长期以来,如何在保证学术规范与编纂质量的前提下提高词典编纂效率,是学术界普遍关注的问题。经过大规模语料预训练的大语言模型,凭借其出色的语言生成能力,使词典“内容生成自动化”成为可能。我们须把握宏观趋势,从范式演进的高度认识大语言模型对词典编纂实践与理论的重构,致力于构建具有中国立场和学术自觉的新型词典学自主知识体系。
基于内容生成自动化的词典编纂新范式
词典编纂向来周期长、投入大。此前的自动化与数字化尝试,着力于提升编纂流程效率,如借助语料库检索辅助收词、通过数据库实现词条统一管理、利用数字排版技术改进编辑与出版环节等。这使词典编纂流程实现了一定程度的自动化,但词条释义、义项划分和例证撰写等核心环节仍主要依赖有经验的编者完成。大语言模型强大的生成能力为词典编纂从“流程自动化”转向“内容生成自动化”提供了可能,词典编纂新范式呼之欲出。
大语言模型主要是基于Transformer 架构的预训练机制来实现词典词条的自动生成。其在大规模语料学习过程中内化了丰富的语言结构信息,具备了生成连贯文本的能力。在义项划分方面,同一词形在不同语境中,经由大模型编码后呈现出不同的向量表征。通过对这些向量表征的聚类分析,筛选出语义明确的用法类型,即可对应词的不同义项。在释义与例句生成方面,大模型能在给定语境的情况下,生成符合要求的释义与例句。此外,大语言模型的分布式表征能为构建词汇语义网络提供机器可循的线索:词与词在向量空间中的相似度,可用来识别同义、反义或转换(如教与学、买和卖等)关系;结合它们在不同语境中的共现与替换分布特征,可识别上下位关系。通过对海量语料的概率建模与分布式表征学习,大语言模型使词典内容自动生成在多个关键环节上具备可行性。从这个意义上讲,它正深刻变革词典编纂实践,重构词典编纂理论。
智能协同的词典编纂实践
大语言模型驱动的词典编纂实践在以下三方面显著区别于传统模式。
编纂载体的变化。词典编纂的载体,传统上是卡片,互联网时代是语料库,而在人工智能时代则有望被大语言模型和智能体取代。前两者更新周期长、维护成本高,编纂流程仍主要依赖人工完成。这种静态载体导致传统词典编纂存在周期长、更新慢的局限。大语言模型驱动的词典编纂实践,其载体不再是孤立的数据库,而是一个以通用语言模型为中枢、多智能体协同运作的集成化平台。通用模型提供对自然语言的理解与生成能力,不同智能体则分别承担语义分析、释义与例句生成等下游任务,为编纂工作的自动化与智能化奠定了技术基础。
编纂流程的变化。大语言模型解构了传统词典编纂流程。在传统流程中,编者必须先通过语料观察和语义分析确定意义,再转写为规范释文并佐以例证。大语言模型则依托其在大规模文本上习得的语言模式与共现规律,在给定词目、语体/体例约束与上下文提示的条件下,直接进行概率式生成,产出多版本、可比较的候选表述。编者据此检验其语义覆盖度、语料支撑与体例合规性。大语言模型并非先理解意义再寻找表达,而是先给出表达,再借由评估逼近合适的意义。传统流程的核心在于“从语料中正确概括出意义”,新流程的核心则是“从或然性表述中,筛选并校准出最可靠的版本”。编纂的关键环节由“撰写”转为“验收”,一套基于内容自动生成的新型人机协同流程得以确立。
编者角色的变化。在传统模式中,词典编者既是词条内容的生产者,又是词典质量的把关人。编者须亲自完成每条释义与例句的撰写,全程参与资料搜集、内容编写与定稿审核,其学术水平决定了词典的权威性。大语言模型时代,编者更倾向于作为生成过程的引导者与质量审校者:一方面,通过设计提示框架与约束条件,引导模型稳定产出符合受众定位、语言规范与词典体例的词条;另一方面,严格评估、核验与润色生成内容,把关事实是否准确、逻辑是否自洽和语言是否地道。编者须与模型对话,对不当内容及时纠偏并形成修订规则。更关键的是,专家反馈将审校意见不断固化,进一步提升模型生成内容的稳定性与可用性。编者工作重心从直接生产文本,转向对生成机制、质量标准与最终结果的统筹和裁决。
生成导向的词典编纂理论
与词典编纂实践相适应,大语言模型时代的词典编纂理论在认识论、对象形态功能和规范观方面都发生了深刻变革。
编纂认识论的变化。传统词典学的认识论根植于结构主义语言观,将词义视为稳定、可定义的概念实体,预设词具有相对明确的语义边界及可被识别和枚举的义项集合。编者通过义项划分、释义撰写与例证选取,将复杂的语言使用现象抽象和固化,使词典成为对语言意义进行分类、归纳与固定化呈现的知识系统。大语言模型则基于大规模语料的统计学习,在不同上下文分布中自动捕捉词义差异,由此构建了一种“生成主义”的词典编纂认识论。新的认识论强调语义的概率性与情境依存性,承认词义是在生成与使用中不断被更新和校准的。相应地,词典编纂不再以穷尽列举并划定词义边界为核心,而是借助模型捕捉语言意义的流动性,在具体语境中生成更贴合使用的解释与呈现。这标志着词典编纂从结构主义的“分类逻辑”迈向了生成主义的“生成逻辑”。
编纂对象形态功能的变化。大语言模型改变了词典编纂对象(即词典本身)的形态、组织方式与应用场景。传统上,无论是纸质词典还是电子词典,其知识均被预定义为离散的词条,通过固定的宏观结构与模块化的微观结构(如分栏呈现释义、例句)进行编排,本质上是结构化的知识载体,功能局限于被动的单向查询。未来,词典形态有望从有形的“书”演变为可嵌入各类语言使用场景的应用程序编程接口(API)或对话界面,其功能将升级为根据具体问题输出连贯、满足当下语言知识需求的解释。词典不再只是等待查询的数据库,而是能深度嵌入阅读、写作、翻译等场景的交互式语言知识服务产品。其价值重心也从提供标准化释义,转向在具体场景中降低用户获取与应用语言知识的成本。词典编纂也须顺应形态功能的演变作出调整。
编纂规范观的变化。在传统编纂模式下,编纂者作为把关人,依据相对稳定、共时的语言体系,预先判断哪些词汇与用法可被收录以及应当如何表述。规范主要表现为释义措辞的取舍、用法标签与例证选择,包括对语体与风格的优劣判断。这种排他式的规范观更多依赖编者在撰写词条前作出裁定。大语言模型介入的词典编纂,主要体现为对编纂过程的约束,即规定编纂系统如何按照提示及相应规则生成词条内容、明确可用语料,统一释义风格、术语体系与义项,设置事实核验、一致性检查以及幻觉的处置规则,并将审校意见作为约束条件以持续修正偏差。由此,词典规范的标准从编者的个人审度,转向人机协作对生成结果的持续校准,实现了从前期权威裁定到全流程约束的根本转变。
大语言模型驱动的词典编纂实践革新与理论重构,共同勾勒出面向未来的词典学新范式雏形。在这一范式下,词典的核心角色已不再局限于作为权威参照的静态工具书,而是演变为能够持续追踪语言动态、融合多源信息、服务于真实语言生活的知识服务产品。大语言模型为词典学带来的远不止于技术层面的升级,更在于推动其重新审视自身的研究对象、方法论体系与价值目标。展望未来,如何在智能化背景下,构建兼具学术自觉、理论主体性与自主知识体系的词典学理论,仍有赖于学界持续而深入的探索。
文章为社会科学报“思想工坊”融媒体原创出品,原载于社会科学报第2002期第5版,未经允许禁止转载,文中内容仅代表作者观点,不代表本报立场。
本期责编:程鑫云
《社会科学报》2026年征订
点击下方图片网上订报↓↓↓
热门跟贴