基于ChatGPT改写的定制文本难度对读后续写协同效应及促学效果的影响

王启 周晓

摘要

本研究基于ChatGPT改写的故事文本,将不同难度版本适配学习者不同的英语水平,考察这种定制型难度材料对二语读后续写协同效应及促学效果的影响。被试为两组水平相当的英语学习者,其中非定制组读后续写难度适中的故事原文,定制组分五个亚组,分别读后续写适配各自水平的故事版本。两组被试速读一遍后对故事难度打分,续写完成后接受词汇知识测试和延时测试。结果发现:1)定制组的文本难度判定为不难不易,略低于非定制组;2)定制文本难度显著增强了目标词的协同产出和学习效果,但前者增幅远低于后者增幅;3)目标词协同产出与其词义及运用知识习得效果呈显著正相关,但相关度不高;目标词协同产出与其词形知识习得效果则关系不大。本研究据此提出,难度适中的定制型文本为可理解输入,其促学优势在于较强的可协同性。

关键词:ChatGPT;定制型文本难度;读后续写;协同;可协同性

正文

1. 引言

理解和产出之间的互动协同是续论促学的核心机制。“续”利用学习者理解与产出能力的不对称性,将理解与产出紧密结合,促成二者互动协同,高效推动二语发展。在此互动过程中,协同促学的成效取决于输入材料的难度和质量。若前读材料难度远超学习者理解能力,协同便无从产生,“续”的促学功能随之消失;若材料难度过低,则无法实现产出能力向高水平材料的协同拉平,难以达到高效促学的目的。因此,选取和改写难度对标学习者外语水平的阅读材料,是以续促学的关键操作之一。然而,材料改写并非易事,即便经验丰富的外语教师也感到棘手。由于同校同级同班学生的外语水平存在个体差异,若要精准适配,则需提供不同难度的材料版本,这无疑会增加改写难度。Chat GPT等生成式AI模型为此难题提供了解决方案,因其具有强大的文本理解、生成和改写能力,可根据用户需求快速调整文本难度,还可保持语言的地道流畅性和原作的内容与风格。本研究基于Chat GPT改写的故事文本,将不同难度版本与学习者不同的英语水平适配,考察这种定制型难度材料对二语读后续写词汇协同及促学效果的影响,旨在验证生成式大语言模型与续论相结合的可行性,为续论实施中的材料改写难题提供简易实用的解决方案,也为应用大语言模型辅助教材编写提供参考。

2. 文献综述

2.1读后续写中的协同及其强化

读后续写是续论促学的常用方法,具体操作是提供一篇删去结尾的外语故事,让学习者仔细阅读后自主续写。此方法操作简便,却能调动几乎所有促学语言的积极因素(王初明2016)。其中,续写产出与前读理解的协同效应是推动二语发展的主要引擎。通过与优质材料互动,学习者可充分利用理解和产出能力永恒的不对称性,使较低的二语产出能力与较高的理解能力协同拉平,在丰富语境的支持下高效促学二语(王初明2016)。大量实证研究结果表明:二语读后续写在各语言层面均存在显著的协同效应和促学效果(参阅Zhou&Wang 2025;张晓鹏、陈莉2025)。当前续论研究的焦点已转向探索如何强化“续”的协同效应。Peng et al.(2020)发现,与续写原版故事相比,简写版续写的协同效应更强,续作文本的流利性和准确性更高。王启、缪海燕(2023)在阅读材料末尾植入可以再现前读情节的情景导向,发现该导向可以强化理解与产出的关联,提高读后续写的协同效应。Zhou&Wang (2025)发现,文本体裁可以显著影响读后续写的协同效应,说明文续写中短语层面的协同效应强于记叙文续写。王初明、王启(2025)的研究结果表明,续说产出模态的协同效应强于续写模态。金檀等(2025)将智能反馈的合作加工策略引入读后续写,发现该策略可以促进学习者写作能力的发展。

上述研究表明,通过阅读材料的简写、文本体裁的选择以及产出模态的更替等手段,可以强化读后续写的协同效应。但在这些研究中,材料难度往往靠老师直觉判断。而阅读难度是否匹配学习者水平,靠老师想当然的主观判断不一定准确(Peng et al.2020),需要更为科学的手段进行适配。更为重要的是,学习者的外语水平往往参差不齐,即使同一学校同一专业同一年级的学习者,其外语水平也非整齐划一。但在读后续写教学实践中,教师往往采用同一难度版本作为输入材料。因此,即使教师经验再丰富,判断再准确,也无法实现材料难度与学习者个体水平的精准适配。

为了有效发挥“续”的促学效应,输入文本的难度需要控制。根据社会文化理论(参阅Lantolf 2006),互动之所以促学,因其可助学习者利用外部环境所提供的给养,借助其脚手架(scaffolding)和中介(mediate)作用,将超出自身语言和认知水平的知识内化为自身知识,由此提升自身认知水平和语言能力。这里促学的关键是,外部环境所提供的给养既需超出学习者当下水平,又不能超出太多,方能实现最佳促学效果。然而,如何针对学习者当下语言水平把控输入文本难度并非易事,难度过低,学习者无法利用理解和产出能力的不对称性,难度过高则无法催生协同效应。以Peng et al.(2020)为例,阅读材料的简写本确实增强了读后续写的协同效应,提高了续写产出的流利性和准确性,但从研究结果来看,简写本的难度还是偏高,且该研究将同一班级的学生默认为同一水平,未考虑到学习者的个体差异。若针对学习者水平个体差异对输入文本难度进行调整,这对外语教师是一个极大的挑战。

2.2材料改写与Chat GPT的生成改写功能

教学材料改写是外语教师常用的教学手段(Jin&Lu 2018),主要有两条路径。第一条路径是外语教师靠直觉进行改写(参阅Rets et al.2022),依赖教师的教学经验和写作专长以及他们对文本理解的主观判断(Young 1999)。例如,Green&Hawkey (2012)请四位经验丰富的英语教师反思其文本改写操作,发现他们采用的改写策略主要包括删除冗余信息、用高频词替换专业术语、缩短文本长度等。Young (1999)发现,词汇修改是教师最常用的改写策略,他们会将低频生僻词或短语替换为常见的高频词或短语(Young 1999:352)。第二条路径是数据驱动的结构性改写(Jin&Lu 2018)。这种方法以不同水平等级的词汇表、特定句长和可读性公式为标准,通过语料库方法对文本难度进行评估,引导教师对超标部分进行有针对性的简化修改。修改主要涉及低频词的替换、长句的缩写以及超标语法结构的简化等。此外,Jin&Lu (2018)还提到对句法复杂度的标注和提示。

文本改写非并易事,连经验丰富的外语教师也往往感到棘手(参阅Albiladi2019)。主要原因有:1)文本改写费时费力,教师难以在材料改编与其他职责之间找到平衡;2)文本改写较难精准适配学习者的外语水平,教师需综合考虑词汇复杂度、句子结构以及整体可读性等因素;3)过度依赖可读性公式等指标可能降低文本的连贯性和可读性(Long 2020);4)若按直觉修改,不同教师因对文本难度的理解不同,改写文本会存在较大差异,基于数据驱动的结构性改写则要求教师具备较高的语料库使用素养(Jin&Lu 2018)。此外,外语教师往往为非本族语者,其外语和写作水平难保简写文本流畅地道,更难兼顾原作的写作风格,改写后不尽如人意。

Chat GPT等生成式AI大语言模型为上述问题提供了解决方案。此类大语言模型具有如下优势1:1)语言生成和理解能力强。模型能够生成连贯、有逻辑性的文本内容,能够理解复杂的语义关系,这使得它们在文本改写时能够保持原文的核心信息,并以不同表达方式呈现。2)改写效率高。用户只需输入原始文本和恰当的指令,模型即可快速生成改写后的文本,省时省力。3)改写质量高。大语言模型在改写文本时,能够优化句子结构、词汇选择和修辞手法,还能自动纠错以提高文本质量。4)适应性和定制性强。大语言模型具有广泛的适应性,能够处理不同题材、体裁、风格的文本,能够根据用户需求改写文本,如精准调控句子结构以及词汇和句法复杂度等,按特定难度生成所需文本(de Oliveira&Dos Santos 2025)。5)支持多语言处理。大语言模型通常支持多语种文本处理,可用作外语教师的助教工具。

鉴于大语言模型的上述优势,本研究运用Chat GPT将前读材料改写为多个版本,每个的难度不同,分别与学习者不同的外语水平相配,考察这种定制文本难度对读后续写中词语协同的影响以及不同版本的促学效果,具体回答以下问题:

1)适配学习者水平的定制文本难度能否增强读后续写中目标词的协同效应?

2)适配学习者水平的定制文本难度能否提高读后续写中目标词的学习效果?

3)目标词的协同产出与其学习效果之间有无关系?

2.研究设计

2.1被试

被试为某高校非英语专业大一学生(n=117),由三个平行班组成。三个班由同一位教师教授大学英语课。被试按自然班分配到材料筛选组、定制难度组和固定难度组。三组被试牛津英语水平测试成绩无显著差异(F[2,115]=2.172,p=.120)。因部分被试续作未达任务要求,进入最终数据分析的人数分别为定制难度组39人,固定难度组37人,两组被试牛津英语水平测试成绩无显著差异(t=0.934,df=74,p=.354)。

2.2实验材料改写与适配

实验材料是一篇截去结尾的英文故事,文章长约1300单词,讲述的是单亲母亲Mary上班途中三次偶遇外星人并冒领其财宝的奇幻故事。之所以选取该材料,是因其语言为中等难度,多次用于中高级学习者的读后续写研究(如Wang&Wang 2015;王启、缪海燕2023),便于对比协同效应和促学效果异同。

为了适配学习者个体水平,我们用Chat GPT对故事原文进行改写。改写主要针对文本句法复杂度,涉及五个维度(Lu 2010)。选取句法复杂度作为改写依据,主因为:1)句法复杂度的五个维度涵盖了文本复杂度的主要变量,是预测文本复杂性的显著指标(Jin et al.2020);2)句法复杂度与阅读难度紧密相关,句法复杂度越高,阅读难度越大,有助于实现研究目的;3)调整句法复杂度对外语教师来说极为困难,若Chat GPT可以据此维度进行改写,其它维度的改写更加容易;4)本研究以词汇协同和习得为考察点,操纵词汇难度可能会干扰研究结果。

句法复杂度的改写指令分为两个部分,一是对句法复杂度五个变量的界定2,二是改写要求。改写要求包含句法复杂度、受众大致的外语水平以及故事内容、长度和风格的一致性。具体改写指令如下:

Please rewrite the following text into six versions differing in syntactic complexity according to the five indices as defined above.Version 1 should be higher in syntactic complexity than the original text.Version 2 to Version 5should be lower in syntactic complexity than the original one,and they should be less complex syntactically in turn.Note the resultant texts are for intermediate and advanced EFL learners,so they should not be too low in syntactic complexity.While rewriting,the content,style and length of the resultant texts should be kept similar to the original one.In addition,all resultant texts should be natural and native-like in language,and logical and coherent in content.(请根据上述定义的五项指标,将以下文本改写为句法复杂度不同的六个版本。版本1的句法复杂度须高于原文,版本2至版本5则须低于原文,且依次降低。改写后文本的受众为中高级水平英语学习者,因而句法复杂度不宜过低。改写时请保持文本内容、风格和长度不变;语言须自然、地道、流畅,内容则须逻辑清晰、连贯一致。)

我们将句法复杂度的界定和上述指令输入Chat GPT-4o,令其对故事原文进行改写,得到句法复杂度递减的6个文本,加上原文,共有7个难度版本候选。故事改写后请专家和本族语者进行判断,结果表明,7个版本的内容和风格相仿,语言都比较准确、自然、地道和流畅。

难度版本适配在一组不参加正式实验的同水平学习者中进行。先将他们按牛津英语水平测试成绩分为7组,再将7个版本按难度与其外语水平进行匹配,高水平匹配高难度,随后请他们用五至七分钟3快速阅读一遍各自的故事版本,并对故事难度进行评分。评分采用Likert五级量表,含针对理解难度的五个陈述句,分别对标五个理解难度,5分表示最难懂,1分表示最易懂。版本一和版本七因过难和过易被剔除,最后得到五个难度版本,其中,故事原文难度最高。最后以不难不易(3分)为基准,根据定制难度组的牛津英语测试成绩对难度版本进行调整、匹配。若材料筛选组某分值段的被试对给定版本的难度判定普遍高于3分,则将定制组相同水平段的被试匹配难度低一级的版本,反之则上调一个难度版本。

2.3目标词选取和替换

目标词为12个描述故事关键要素(人物、事件、情景)的单词(shining, scales, wing, land, door, believe, silver, small, gift, gold, disappear,diamond)。我们将其替换为符合英语拼写规则的假词:larent、hactum、harbet、ballop、lorage、whifer、witose、prammy、balcon、surade、pugate和pronky。为排除原词对假词的干扰,我们对目标词词义进行了具体化,如surade替换的是gold,但释义则为“彩金colorful gold”。阅读材料附目标词和其它8个生僻词的注释,注释含词形、发音、中英文释义和例句。

2.4目标词知识测试

词汇测试卷包含两部分,一部分考察目标词的词义和运用知识,另一部分则考察目标词的词形知识。测试题涵盖12个目标词和11个干扰词(含8个生僻词和3个较长的单词),词义和运用知识测试先于词形知识测试。词义和运用知识测试采用词汇知识量表(Vocabulary Knowledge Scale,VKS)(Wesche&Paribakht1996)(表1)。具体而言,每题给出一个单词,单词后附有a、b、c、d四个选项,要求被试根据自己掌握的情况进行选择和填空。前3个选项用于测试词义知识,最后一个选项测试运用知识。选择a项,得0分;选择b项,得0.5分;选择c项并给出正确意思,得1分,意思错误,得0.5分;选择d项且造句正确得1.5分,造句错误得1分。

打开网易新闻 查看精彩图片

词形知识测试采用单词填空任务(Niu&Helms-Park 2014),测试题提供目标词首和词尾字母,要求被试根据给定的汉语意思将句中单词补充完整,如例(1)。(1) They brought in p_______y (小巧的、精致的) porcelain dishes to sell.

评分时计算被试拼写正确字母数的百分比,如例(1)的正确答案是prammy,若被试正确拼写出三个字母(“正确”指字母出现位置及拼写都正确),则得3/5=0.6分。研究者和研究助手先抽取20%的数据共同评分,评分员信度为.98,再由两位评分员单独评分,最后取二者均值为最终成绩。

2.4实验步骤

实验为期四周,包括预实验、实验干预、后测和延时后测(见图1)。第一周的预实验旨在筛选前读材料。研究者将材料筛选组被试按英语水平测试成绩分为7档,并按“高水平配高难度”的原则,将难度版本与被试进行匹配。随后被试用5-7分钟速读其故事版本并进行难度判定,再精读20分钟后用40分钟完成续写。最后根据故事难度评分剔除最难懂和最易懂的两个版本,保留5个版本用于正式实验。

打开网易新闻 查看精彩图片

第二周为正式实验。定制难度组读后续写按前述方法(见2.2节)匹配后的5个难度版本,固定难度组阅读故事原文。任务步骤、时间和要求与材料筛选组相同。续写完成后收回阅读材料、学习者笔记和续写作文,并对两组被试进行词语知识测试。测试含12个目标词和8个干扰词,测试时间为10分钟。两周后进行延时后测。延时后测与后测内容相同,题序不同。两次测试均未事先告知被试。

研究者将被试的续写文本录入电脑,建立一个定制难度组续作语料库和一个固定难度组续作语料库。再利用Ant Conc 3.4.3提取两库中目标词的协同产出频数。

3. 研究结果

先来看被试对阅读文本的难度判断(表2)。定制难度组对其文本难度的判定值处于中等水平,显著低于判定值偏高的固定难度组(t=-2.575,df=74,p=.012),说明定制组文本难度与水平匹配较为精准,Chat GPT的改写降低了阅读材料的阅读难度。

打开网易新闻 查看精彩图片

再来看定制文本难度对目标词协同效应的影响。独立样本t检测结果显示,定制难度组目标词的协同产出频数显著多于固定难度组(t=2.434,df=74,p=.017),说明读后续写任务中,定制型输入文本难度可以增加读后续写中目标词的协同产出。

接下来看两组被试对目标词的学习情况(表2)。定制难度组两项词语知识测试成绩均大幅超过固定难度组,均值差异显著(词义与运用知识:t=4.364,df=74,p=.000;词形知识:t=2.766,df=74,p=.007)。定制难度组两项词语知识延时后测成绩更是固定难度组的两倍还多,均值差异显著(词义与运用知识:t=5.192,df=74,p=.000;词形知识:t=3.595,df=74,p=.001)。上述结果表明,读后续写任务中,适配学习者水平的定制文本难度可以大幅增强二语词汇的学习和保持效果。

最后来看目标词协同产出与其效果间的关系。Pearson相关分析结果显示,目标词协同产出频数与其词义及运用知识后测成绩(r=.280,p=.014)与延时后测成绩(r=.332,p=.003)显著正相关,与其词形知识后测(r=.137,p=.238)和延时后测成绩(r=.198,p=.087)则无显著相关。上述结果说明,词语层面的协同产出与其词义及运用知识的学习效果存在中偏下的正相关,与其词形知识的学习效果关系不大。

上述结果回答了三个研究问题,研究发现归纳如下:1)定制组对其阅读文本的判定为不难不易,低于固定难度组的难度判定值,表明定制组难度匹配较为精准;2)定制文本难度显著增强了目标词的协同产出和学习效果,但前者增幅远低于后者;3)目标词协同产出与其词义及运用知识的学习效果为正相关,但相关度不高,与其词形知识的学习效果则无显著相关。接下来结合相关研究和理论进行讨论。

4. 讨论

4.1基于Chat GPT定制文本难度的可行性

定制组对文本难度的判定为中等(M=3.00),说明Chat GPT改写后的文本精准适配了学习者的外语水平,该组被试对文本难度的判定值也低于固定组(M=3.59)。此结果验证了Chat GPT应用于文本难度调整的可行性。前文提及,外语教师虽有两种方法对文本进行改写,但无论哪种方法,都会对其提出极大挑战,费时费力不说,还不能保证改写文本的质量。本研究结果表明,Chat GPT可接过外语教师的担子,且操作简单高效,改写质优,即使对于句法复杂度这种极为复杂的语言变量,改写效果也令人欣喜,其它诸如长句变短句、熟词替生词等简单操作自然不在话下。教师仅需查阅理解难度的定义,制定指令提供给Chat GPT,便可轻松实现改写目的,即使教学新手也可轻松掌握,省时省力。

固定组的阅读材料难度中等,常用于中高水平外语学习者读后续写任务(如Wang&Wang 2015;王启、缪海燕2023等),但固定组被试对其判定为偏难(M=3.59)。这说明,将同一批被试视作同一水平而采用同一材料,无法对标学习者个体水平。Peng et al.(2020)的研究亦是佐证。该研究通过高频词替换低频词和缩短句长来简化续写文本,发现简化组被试对阅读材料复杂度的判定值显著虽低于非简化组,但其判定值仍然偏高,说明此研究未能精准控制阅读文本难度。原因可能有二:其一,研究目的仅为探讨输入文本复杂度对续作表现的影响,因而仅使用了单一的简化版本;其二,研究使用词频和句长两个指标来操纵文本复杂度,忽略了其它关键指标。而本研究采用的句法复杂度除包括句长因素,还涵盖了影响理解难度的其它4个关键因素,因而文本难度与外语水平匹配较为精准。

4.2定制文本难度的促学优势:可协同性

定制文本难度能够强化协同效应,显著增加被试对目标词的使用,这与Peng et al.(2020)的研究结果有所不同。该研究发现,学习者续写简化版文本时,在单词和短语层面的协同效应与续写原版文本无显著差异。文本难度可能是造成两项研究结果不同的原因。前文提到,在Peng et al.(2020)的研究里,被试在充分阅读原版和简写本后对文本的难度判定皆超出了中间值,说明文本难度超出了学习者的理解水平。本研究中,学习者速读一遍后随即做出难度判定,结果是一组稍难,一组适中,细读后均不存在理解困难,均能引发协同效应。任务结束后被试的反馈也印证了这一点:他们都能读懂各自阅读的文本材料。Peng et al.(2020)的研究则不同,两组材料的难度均超出了被试外语水平,因而都削弱了协同效应。

细究本研究结果,我们还发现:两组被试对文本材料的难度判定差异不大,目标词协同产出频数间的差异也较小,但定制组对目标词的学习效果却远超固定组(详见表2)。这究竟为何?答案可能跟“协同”与“协同产出”间的差异有关。协同植根于理解与产出间的互动。对话则是最典型的互动方式,在此过程中,会话双方会在内容(情景模型)和语言上相互顺应、动态适配,逐渐在大脑中建立共享表征(common ground)。这种互动中相互顺应、动态适配并建立共享表征的机制便是协同(alignment,Pickering&Garrod 2004)。“续”则是互动的本质属性,因而对话外的各类“续”任务同样蕴含互动协同。不同的是,此类续任务多为学习者与文本材料间的单向协同。但无论是单向还是双向协同,都是互动中大脑表征的调整顺应。协同产出(aligned output)则是协同的外在表现,指续作产出中学习者对前摄语言结构的复用,其频数常用作协同强度的测量指标。但协同强度并不等于协同产出频数。前者由互动强度决定,后者还受表达需要等其它因素影响。若无表达需要,协同强度再大也不会有协同产出。因此,协同产出仅为协同之冰山一角,二者不能等同视之。本研究两组被试的协同产出频数相差不多,但促学效果却相去甚远,原因可能就在于协同与协同产出之间的差异。因协同效应即学习效应(参阅王初明2025),定制组的协同效应当大大超过固定组。这也解释了本研究的另一发现:协同产出与学习效果间仅为中低度相关。换言之,协同产出并未将强大的协同效应反映出来。

定制文本难度强大的协同效应和促学效果又是从何而来?答案可能与“可理解输入”有关。可理解输入指能为学习者理解且处于其最近发展区的输入(i+1;Krashen 1985)。本研究的两组被试对其阅读文本均不存在理解困难,但定制组被试快速阅读各自版本时,感觉难度适中。这种速读一遍感觉难度适中的文本,可能便是可理解输入,处于学习者的最近发展区。根据社会文化理论,处于学习者最近发展区的语言最易习得(参阅Lantolf 2006)。我们也持相同观点。但从续论视角观之,可理解输入的促学优势源于“续”中的互动协同机制。具体而言,此类输入因处于学习者的最近发展区,学习者与其互动时自身语言系统仅需小幅调整便可与其协同,因而可协同性(alignability)高,促学效果好。固定难度组的习得效果远逊于定制难度组,可能就在于输入材料偏难,超出了该组被试的最近发展区,可协同性较低。

5. 结语

本研究利用Chat GPT对阅读材料进行难度调整,并将不同难度版本与不同外语水平相配,据此探讨这种定制型难度对读后续写协同效应及促学效果的影响,旨在破解续写材料与学习者水平难以精准适配的教学难题。研究结果证实了Chat GPT优质高效的文本改写功能,检验了Chat GPT等生成式AI大语言模型与续论相结合促学的可行性,验证了定制型难度输入文本的促学优势。我们据此提出,定制型难度文本的促学优势在其“续”中较强的可协同性,这为进一步优化以续促学提供了新思路。本研究只是大模型应用的一个初步尝试,未来研究可考虑加入定性研究方法(如有声思维、刺激回忆访谈)深入探究学习者对二语词汇的认知加工过程,以不同的语言结构去验证此次研究结果的普适性。

免责声明:原文载于《现代外语》,2025(5),版权归作者所有,如有侵权,请及时联系删章。

转载自外语教学与研究公众号