打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

续论与大语言模型

王初明

广东外语外贸大学

摘要

生成式大语言模型成功实现人机互动交流,其开发和应用必然反映语言学习和使用规律,这一成就也必然倒逼语言工作者对自己所秉持的语言习得和使用理念进行反思。本文尝试以大语言模型工作原理为参照,将其与深入推进互动研究的续论语言习得观进行对比,甄别异同,相互印证,以此深化我们对大语言模型和语言学习规律的认识,了解人机互动与人际互动的长短,用以指导语言习得研究,以期更好地利用大模型助力语言学习和教学。

关键词:大语言模型;续论;语言习得与使用;语言教学

01

引言

当下迅猛发展的生成式人工智能大语言模型,是开发人类语言资源、模拟人类语言习得和使用、推动社会进步的重大创新成果,是语言研究者和广大外语教师不可忽视的存在。大语言模型的开发和应用与语言研究直接相关,为深化语言学研究提供了新的发展机遇,尤其为印证和检验语言习得理论增添了利器。近年兴起于我国的续论被国外学者称为非西方构念 (non-Western construct,McKinley 2022)。它以一个简明的汉字“续” (含承接上文、接续表达之义) 高度概括和阐释语言是如何学会的。大语言模型和续论都在不断完善中,发展路径共同指向人类自然语言习得和使用规律,前者致力于模拟,后者侧重于揭示。大语言模型作为一项重大技术创新,需要理论支撑,证明自身的合理性、可靠性和有效性。续论关心习得理念是否反映语言习得规律,能否在大语言模型上得到印证,证明自身的理论价值和贡献。为了促进两者互鉴互证,协同发展,本文在简介续论和大语言模型的基础上,围绕续论的核心促学理念,与大语言模型的构建逻辑进行对比分析,甄别异同,以期深化我们对外语学习规律和大语言模型的认识,了解续论的理论贡献,有效利用模型为外语学习和教学服务。

02

续论的促学机制

续论是在深化互动研究中发展起来的语言习得观,旨在剖析“续”的促学功效,助力揭示互动促学语言的机制。多年围绕续论开展的理论和实证研究表明,“续”是互动的主要方式,其促学核心机制是互动的内在属性——协同(alignment,具有趋同、对齐、模仿、拉平功能)。互动产生的协同效应即学习效应,能将他人的语言转化为自己会用的语言。互动强则协同强,协同效应最大化即语言学习高效率,可通过“续”去实现。“续”之所以促学语言,因其能够激活和融合几乎所有与语言习得相关的语言和非语言因素 (参阅王初明2016),并带来一系列引发协同效应的运作,最主要的有:语言理解(学) 与表达(用) 紧密结合、创造性模仿、学伴用随。续论通过“续作” (续说、续写、续译) 实现教学应用。“读后续写”是目前外语教学和测试应用最多的一种续作,要求学习者在理解上文之后预测和续写下文,以此促进上文理解和后续表达深度融合,强化协同效应,加速提高外语表达能力。上述语言习得理念在二语教学和实证研究中得到反复印证,表明“续”反映了语言学习规律,确能有效促学语言 (如Wang & Wang 2015; Zhang 2017; Zhang & Zhang 2021; Zhan & Xu 2025;金檀等 2025;张晓鹏、陈莉 2025)。

03

大语言模型的工作原理

笔者根据媒体相关报道并请教DeepSeek,归纳大语言模型的基本工作原理,便于与续论进行对比分析。生成式大语言模型 (如ChatGPT),又称聊天机器人,实为模拟人类大脑的一款神经网络软件,这类软件历经数十载的砥砺探索,不断迭代,近年取得突破性进展。随着计算机科学的进步,硬软件功能的增强,利用网络软件空间开发出来的大语言模型具有强大算力,至今已发展成为由多层神经元和众多参数组成、并拥有数以千亿计神经节点及其权重 (weight) 的巨大神经网络。在以大型语料库对模型进行训练阶段,研发者秉持大数据隐含语言使用规律的信念,让模型对输入数据 (如文本、语音、图像等) 进行加工,捕捉语言使用特征和信息 (包括确保语言正确得体流利使用的语境、情感、意图等信息),将输入文本转换为分布式词向量 (tokenization),并根据分布概率预测接下去最有可能出现的词,在词语义向量的指引下承接前词“续”后词,学习语言规律,完成语篇,最终实现人机对话。向量是核心数据的表征形式,贯穿模型的输入、加工和输出全流程。模型通过特殊标记将词向量整合为句子向量,用于分类或相似度计算,将人类可读的文本转化为机器可计算的数学对象,通过规模效应 (参数量和数据量) 逼近人类语言表现。因此,向量是语言的“数学投影”,也是大模型理解、推理和生成的基石。在文本生成时,每一步输出的向量会作为下一步的输入,形成连贯的序列。为了提高语言理解和生成能力和高效处理复杂问题,大语言模型引入了“多头注意力” (multi-headed attention,MHA) 等机制,以确保实现人机对话,如能让模型关注输入或输出数据中最相关的部分 (参阅Deepseek;刘明等 2023;袁毓林2024a、b)。经过基于大数据的训练,模型具备以下能力:能够识别和分析上下文,识别语言中的常见模式和结构,在大数据中学到词语、短语和句子之间的联系,并基于以往的对话和场景进行逻辑推理。

面对大语言模型的强大功能,笔者向DeepSeek请教了一个本文最为关心的问题:大语言模型是否体现承接上文“续”下文的功能?得到如下回答 (原话):

打开网易新闻 查看精彩图片

DeepSeek 的回复表明,大语言模型的基础能力和核心能力之一就是续论定义的“续”,其核心机制是自回归生成,等同于互动协同机制,旨在依据上文预测后续词和实现连贯续写,即实现“续”的承上启下功能。由此可见,大语言模型设计和开发的基本理念与续论语言习得观相当吻合。在具体操作层面,“续”的核心运作与大语言模型是否匹配还需要进一步验证,下面针对“续”产生协同效应的三个主要操作 (理解与产出相结合、创造性模仿和学伴用随) 展开讨论。

04

语言理解与产出中的互动协同

大语言模型名为聊天机器人并非浪得虚名,其基本用途就是通过对话帮助用户完成各种任务和提供服务。对话是典型的“续”操作,它将语言理解与产出紧密捆绑。对话者所理解的是他人的话语,所产出的是自己的思想内容,两者互动产生协同效应。从语言习得角度看,经过大数据训练后的大语言模型能够实现人机互动,必然引发协同效应,理应助学语言。本文所关心的是,大语言模型是如何实现人机互动的,人机互动与人际互动有何不同,如何更好利用起来促学语言。

大语言模型通过自然语言加工 (NLP) 技术实现人机互动。人机互动和人际互动存在一些共性。例如,两者在互动中都能够产生显著的协同效应,都涉及信息的传递与反馈,互动的基本目的是完成某种形式的沟通或任务,都依赖规则(如人际互动遵循社会规范,而人机互动依赖预设的程序逻辑或交互设计),两者都可能以解决问题或达成目标为导向 (如协作完成任务),都需要通过反馈 (语言、动作、界面响应等) 来确认互动的有效性。

然而,两种互动属于不同性质的交互模式。人际互动中的协同是全方位、多模态的,不仅涉及语言,还涉及丰富的情境、情感、认知、心理等因素,这些因素支撑着语言使用,不可或缺。人类大脑神经能将这些因素关联起来,形成相互协同、通达联动的网络结构,促进语言习得与使用。在人际互动过程中,“续”将语言理解与产出紧密结合,致使两者发生交集而引发协同,形成学中用、用中学、学与用相互融合、同步进行并即时提供反馈的局面。相比于人际互动,当下大语言模型的训练与应用是异步的,与“续”的过程有着较明显区别。从互动促学语言的角度看,两者各有所长,促学效率高低有待实证检验。人类优势在于创造力、情感理解、道德判断和复杂决策。大语言模型的优势则在于快速信息处理、大规模知识库、无疲劳持续工作。展望未来,模型将会与多模态 (图像、语音) 和具身智能 (机器人) 相结合,人机互动将更贴近人际互动体验,助学语言的效率也因此会显著提高。

值得注意的是,被视为“续”促学机制的协同概念已被用于阐释大语言模型的互动功能,是实现有效人机互动的核心机制之一,其根本目标是确保模型的行为与人类意图、伦理准则或特定的任务目标保持一致,这一理念深刻影响了大语言模型互动功能的设计与优化。在大语言模型里,协同是通过监督微调和强化学习等方法实现的 (参考DeepSeek对协同/alignment的解读)。续论则以协同效应最大化为语言学习和教学目标,基于续论开发的各种续作抓住协同这个核心机制,旨在为强化协同效应创造有利条件。近年来,协同成为二语习得研究领域的热点之一,语言学国际期刊不断发表有关研究论文 (参阅Michel et al. 2022),足以表明协同作为促学语言的机制已经受到研究者们的关注。

05

创造性模仿

创造性模仿 (即内容创造+语言模仿) 是“续”高效促学语言的核心操作,具有强化协同效应的功能。内容创造指学习者在语言学习过程中表达自己的想法和意愿,而非机械重复别人的内容,只关注语言操练。学习者创造内容是促学语言和引领语言使用的驱动力,失去内容创造这一环就丧失了语言学习的自主性和推动力。语言模仿指学会用好语言主要靠模仿,所模仿的是语言使用,不只是语言形式;学语言之所以需要模仿,因为学习所要做的是将他人的语言复制并移植到自己身上,勿需去创造别人听不懂的语言,包括合语法但不合用的词句。创造性模仿表明,在互动或“续”的状态下,当学习者想要表达自己的意思却不知如何表达时,仿用上文出现的相关词语,常伴有顿悟体验,往往学得好,记得牢,效率高。如此模仿不仅具有扩增语言知识的功能,而且能够帮助学习者克服语言表达障碍,承接上文内容“续”下文。

大语言模型的语言能力是先练后用,应用时根据用户的需求和对话历史生成合理回复。大语言模型从大数据中萃取内容,利用训练得来的知识输出下文。但囿于训练所用的大数据,大语言模型被指“内容内循环”,2而非自主创造内容,这有别于续论所倡导的内容自主创造。尽管如此,为了回应使用者的需求,模型能够从海量的知识库里抽绎和概括出最相关的内容,自然比一般个人的思路更开阔,应可视为一种边际创造,如此“内循环”大概不会削弱大语言模型促学语言的功能,因为语言本质上是表达思想的工具,为人类所共享,学习主要靠模仿。大语言模型输出的语言比较规范地道,在自然语言里大概率使用,几乎涵盖了一种语言的所有句型和搭配,是二语学习者仿用的优质资源。为了有效利用大语言模型促学二语,同时发挥内容创造的促学功能,内容表达理应由学习者主导,引导模型更好地与人协同,服务人的表达意愿,以此促进语言知识的内化,助力语言表达能力的提高。

06

学伴用随

语境是学伴用随理念促学语言的核心要素,对学会用好语言怎么强调都不为过。为了支持这个观点,笔者做如下推理。语言习得和使用由意义表达的需求驱动,这应属常识,而如何定义意义却有诸多不同答案。这里不妨引用维特根斯坦的一句名言:意义即使用 (meaning is use)3。这里的“使用”应当理解为语言使用,而语言使用总是发生在语境里,与语境不可分割。同一句话在不同的语境里可有不同的解读,可谓语境出意义。因此,维氏的名言或可理解为:意义即语境,语境是意义的具象表达。广而言之,凡是伴随语言使用的背景因素均可视为语境,如场景、情境、心境、上下文、交谈对象。由于语境具有启动语言使用的功能,而学语言是为了会用,自然要在语境中学;学过的语言知识能否用出来,用出来是对还是错,决定于语言知识在学习过程中与什么语境相伴。相伴正确则易用对,相伴不当则易用错。笔者将此语言学习过程中的语境关联称为“学相伴、用相随”原则,简称“学伴用随”原则 (王初明 2009)。二语学习者与本族语者对话交流是正确语境相伴的例子。本族语者为学习者带来真实的语境和地道的语言,双方在动态语境里理解对方的话语并即时做出语言反应,听者和说者角色不断转换,轮番听后续说,理解与产出紧密结合,在适切语境相伴下学用本族语者的语言,学习效果佳。语境相伴不当的一个典型例子是,在我国学英语,学习者潜意识以汉语语境知识去理解或学用英语词句,常常导致中式英语的使用。

语境对人类学会用好语言如此重要,而大语言模型既然能够成功模拟自然语言习得和使用,必然存在捕捉语境信息的机制。DeepSeek认为,此机制的本质是在高维向量空间中构建了一个可泛化的语境映射系统。经过训练后的大语言模型输出的是镀上了语境标识、隐含在向量里并可整合成语篇的词语。目前,生成语境的人工智能技术发展迅速,已有人工智能软件使用文本生成图像,或通过语音识别将视频中的语音转为文字,或分析画面动作生成说明,或识别物体、场景、动作输出结构化文本。将文字生成视频是当下人工智能领域各国竞相攻关的尖端技术,目前OpenAI已初步具备这种能力,足以表明语境对语言使用所起的关键作用,这为大语言模型实现学伴用随动态促学语言的理念创造了有利条件。可以预见,随着多模态技术的融入和具身智能的加持,大语言模型促学语言的功能将会越来越强大,在动态语境体验相伴下与机器人互动学用语言,外语学习费时低效或将成为往事。

07

大语言模型的教学启示

续论与大语言模型的上述对比对学会教好外语带来一些启示,值得关注,下面仅举几例。

外语教学为何费时低效是一个长期令人困惑的问题。聊天机器人的成功告诉我们:学会用好外语需要互动。在我国,学外语主要用途是应付考试,学校盛行应试教学,被贴上费时低效的标签。究其主要原因,要么外语教师对互动促学外语的重要性认识不足,要么学校缺少高水平教师为学生提供互动交流的条件。如今大语言模型实现了人机互动,能为外语学习提供优质资源,既可用文字也可用语音对话,只要愿学,可随时跟不知疲倦的聊天机器人互动对话,外语学习效率将会因此得到改善。

语法是外语教师难以割舍的第一大情结。语法被视为指导语言正确使用的规则,似乎不学语法就学不会外语。语法是否需要学以及应该如何学,大语言模型的工作原理给我们带来启示。尽管语法具有生成性,而大模型所获得的语言生成能力并非基于语法规则,而是基于词语之间的搭配概率。模型通过概率统计和模式识别,预测下一个可能出现的词。大语言模型学习语言规律的理念与人类语言习得机理有相似之处,切合语法的概率特征。语法规则的一个突出特点是能够生成无数合法新句。然而,合法的句子不一定合用,合用的句子不一定合法,例外实在太多,不可能百分之百正确 (不妨想想英语名词复数加-s的构成规则)。语法规则生成正确合用语句的概率有的能够达到80%左右,有的70%左右,如此类推,概率还会有60%,50%、40%、30%、20%、10%不等,而正确概率低于50%的“规则”估计都不会选入语法教科书,往往被冠以习惯用法,任由学习者在学习体验中去掌握。从语言习得的角度看,语法是语言习得的结果而非原因,逐渐形成于语言使用体验,自然浮现,由语法研究学者从成人的语言使用中归纳出来。如果让大语言模型通过“学”语法规则去生成词句,那是“学”不会使用语言的,因为语法规则从语料中抽绎而来,滤掉了确保语言正确得体使用必不可少的语境元素。外语教学若倒果为因,自始至终过度以语法规则指导外语学习和使用,结局就是费时低效。因此,明智的教师在教语法时往往采用归纳法,语言使用体验在先,不细抠规则,注重词语的使用搭配;或者发挥大语言模型生成语篇的能力,将目标结构嵌入语篇,让学生续写或续说,在这样的篇章语境中学习语法,效果显著 (参阅许家金等 2024:25-32; 王启、周晓 2025)。

大语言模型获得成功的一个关键,是注意力机制的应用。“注意”对语言习得和使用十分重要。二语习得研究领域有一个注意假说 (Shmidt 1990),认为只有注意到的才能学得到。此外,著名的二语习得互动假说也特别强调了学习者对语言结构有选择注意的重要性,认为注意是互动促学语言的关键变量之一 (Long 1996)。大语言模型模拟人类习得语言,遵循了“注意”促学语言的规律,采用了注意力机制,成功铸就了模型的互动能力。值得一提的是,有的外语教师应用读后续写时也有意识地运用了“注意”操作,在前文语篇里凸显需要学用的词语和语法现象,鼓励学生在续作中加以运用,以此落实学伴用随和创造性模仿促学理念,强化协同效应。

仅通过大数据训练的大语言模型便可生成文本并实现人机互动,这说明语篇隐含丰富的语境信息,可由大模型提取出来。这给我们两点启示:一是阅读和续写富含语境信息的外语小说或故事对培养语感和学好外语帮助大;二是语境启动语言使用实为语篇启动 (王初明、王启 2025)。“续”的基本功能之一是依据上文的语境铺垫,预测下文内容并指引续说或续写。换言之,上文语篇中的语境信息具有导向功能 (王启、缪海燕 2023)。“续”之所以有效促学语言,主因之一就在于它利用了具有支架功能的语篇启动效应,“续”所补全、所拓展和所创造的是富含语境信息的语篇,是在语篇中促进语言的正确得体使用,而非从语篇中剥离出来的单词独句。

如果语言是通过互动学会的,学习者的互动能力理应反映其学用外语的能力。在过去近40年里,如何测量互动能力一直是语言测试界关注的论题 (参阅Plough 2018),而互动能力测试至今仍然缺席。有效可靠测量互动能力并非易事,因为互动由参与者共同推进,难以分辨和量化个体对互动的贡献,如何为每位个体的互动能力公平合理地评分却成了语言测试的一个堵点 (王初明 2023)。大语言模型的诞生为疏通这个悬着数十年的语言测试堵点提供了一个解决办法,打开了应用空间。我们可以尝试以聊天机器人为基准,让考生与其互动,并训练机器人考查互动能力。通过对题型和评分标准进行必要调试校正,可使评分变得有效可靠、客观公正。随着具身智能机器人的完善,让其与考生共同完成一项预定任务,在互动体验中考查互动能力和语言运用水平,可进一步提高互动能力测试效度。

08

结语

语言是人类文明大厦的基石,累积的海量文献蕴藏着人类上千年的智慧。人工智能科学家独具慧眼,选择从语言大数据切入,开发大语言模型,不断迭代,目前已达到令人震撼的强大应用状态。从语言习得角度看,大语言模型是模拟人类学用语言的重大技术革命,而非语言习得理论的创新。然而,模型尽管在一些具体设计环节与续论倡导的操作存在差别,整体而言,其构建理念与续论的语言习得观相当吻合,从训练到应用均围绕“续”而展开。这种吻合绝非偶然,而是各自遵循相同语言学习和应用规律的体现,印证了语言是通过“续”学会的论断。当下,两者仍在不断完善的路上,可相互借鉴,相互印证,相互支持。续论所揭示的语言习得规律可为大语言模型上升到理论认识提供参照,同时也在模型的加持下,进一步实现自身价值变现。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

文章来源:现代外语