打开网易新闻 查看精彩图片

大语言模型辅助反馈对二语概要写作表现的影响研究——自我效能感的中介作用

孙波

中国科学技术大学本科生院外语教学中心

摘要

本研究聚焦大语言模型辅助反馈二语概要写作表现的影响及写作自我效能感的中介作用,主要设计了先大模型反馈后教师反馈(LT组)、先教师反馈后大模型反馈(TL组)和大模型单独反馈(LO组)3种反馈形式。研究发现:(1)LT组和TL组在内容、结构、总体写作方面显著优于LO组,而LT组和TL组无显著性差异;(2)LT组和TL组的语篇整合效能感显著强于LO组,但前两组之间无显著性差异;(3)语篇整合效能感在大模型反馈对写作内容的影响中具有中介作用。二语概要写作任务中,结合教师反馈的大模型反馈能更有效地提升学习者的写作表现和写作自我效能感,对写作反馈和写作教学实践具有一定启示意义。

关键词:概要写作;大模型;自我效能感;中介作用

01

引言

大语言模型(以下简称“大模型”)的动态交互等特性使其在二语写作教学中得到更多应用,逐渐成为辅助二语写作反馈的重要工具。大模型辅助反馈对写作表现的影响已经引发学界关注,目前研究者大多聚焦议论文写作(金檀等2025),并且通常采用先大模型反馈后教师反馈的形式。作为一种特殊的写作任务类型,概要写作要求学习者在充分理解原文的基础上准确归纳提取主要内容,比一般性的议论文写作更具复杂性(Liuet al. 2024)。因此,大模型辅助反馈形式对概要写作表现的影响研究有助于深化对大模型辅助反馈的认识,提升反馈效果。二语写作表现不仅涉及学习者语言知识的运用,还与认知因素尤其是自我效能感密切相关(Teng & Wang 2023),然而现有研究极少考察大模型辅助反馈与二语学习者写作自我效能感之间的关系。本研究基于社会认知理论,旨在探讨大模型辅助反馈如何影响英语学习者的概要写作表现,并检验写作自我效能感在二者关系之间的中介作用。

02

文献综述

2.1 大模型辅助写作反馈研究

传统的写作反馈按照反馈来源,可分为教师反馈、同伴反馈和写作自动评价(AWE)系统反馈(任伟等 2024)。这3种反馈各有优势和不足,因此当前写作反馈研究多采用融合式的多元反馈模式(如张亚,姜占好 2022)。随着人工智能技术的发展,以ChatGPT为代表的大模型能够高效提供写作反馈,大模型辅助反馈已经成为学界关注的热点。

研究者一般认为大模型辅助反馈有助于提升二语写作表现。例如,Boudouaiaet al.(2024)采用ChatGPT-4为学习者提供议论文写作反馈,发现实验组在写作内容、结构、词汇和语法方面的表现均显著优于对照组。然而,大模型辅助反馈的促学效应在概要写作任务中可能并不始终存在。究其原因,与议论文写作相比,概要写作中学习者会表现出不同的语言特征。Cumminget al.(2005)发现学习者在概要写作中表现出来的词汇复杂度和句法复杂度均显著高于议论文写作。概要写作与议论文写作的评价标准也不尽相同,比如概要写作的评价需考察写作者识别和转述原文主要内容的表现。大模型辅助反馈对概要写作这些方面表现的影响尚未有明确结论。

在具体反馈实践中,大模型辅助反馈可采用不同形式,但学界还未给予充分关注。Stevenson(2016)建议将自动反馈置于教师反馈之前,学习者根据自动反馈的结果自行修改语言问题,而教师反馈主要关注写作内容、意义建构等层面。然而,大模型在反馈时可能会大幅改动学习者提交的文稿(Shin & Lee 2024),掩盖学习者写作的不足,因此将教师反馈置于大模型反馈之前也有其合理性。另外,有些研究者认为应将大模型视为教师助手而非替代者,但这些结论多源自观点调查或访谈(如Asadiet al. 2025),缺乏学习实效的数据支撑。师机混合反馈和单独大模型反馈对学习者概要写作表现的影响差异有待考察。

2.2 写作自我效能感的中介作用研究

自我效能感是指人们对于自己能否组织和执行特定行为从而取得特定成就的判断(Bandura 1986)。相关研究发现写作反馈能够有效提升学习者的写作自我效能感。Sari & Han(2024)指出,在AWE辅助反馈条件下,即时、个性化的自动反馈能够帮助学习者积累成功写作经验,学习者在自行修改中减少了被评价的恐惧,增强了对于写作的信心。

写作自我效能感不仅受到反馈的影响,而且会影响写作表现(Teng & Wang 2023)。现有研究主要聚焦写作自我效能感在学习者个体因素影响写作表现过程中的中介效应。Woodrow(2011)运用结构方程模型分析发现,焦虑并不直接影响写作表现,而是通过削弱学习者的自我效能感间接影响写作表现。Sarikaya & Sökmen(2025)发现自我调节可通过增强学习者的写作信心来提升写作表现。Zhang & Zhang(2025)将考察的个体因素从单一的心理或元认知维度扩展至包含学习者特质、认知、动机等的多元维度,发现写作自我效能感在坚毅、词汇学习能力、工作记忆和成就目标影响二语写作表现的过程中具有中介作用。环境、个体和行为三者之间相互作用,环境会影响个体的认知,而个体的认知又会进一步影响行为表现(Bandura 1986)。在写作情境中,反馈作为环境因素可能通过影响学习者的写作自我效能感,进而影响写作表现。然而,目前鲜有研究考察写作自我效能感在大模型辅助反馈与写作表现之间的中介作用。

03

研究设计

3.1 研究问题

本研究设计了3种大模型辅助反馈形式,即先大模型反馈后教师反馈(LT)、先教师反馈后大模型反馈(TL)、大模型单独反馈(LO),聚焦大模型辅助反馈对二语概要写作表现的影响,拟回答3个问题:

(1)接受大模型辅助反馈后,学习者概要写作表现和写作自我效能感的总体情况如何?(2)大模型辅助反馈如何影响学习者的概要写作表现?(3)写作自我效能感是否在大模型辅助反馈形式对学习者概要写作表现的影响中起中介作用?

3.2 研究被试

我国中部地区某理工科大学179名一年级本科生作为被试参与了本研究的前测和后测。研究者剔除了6名未认真填写量表的被试,最终纳入数据分析的被试为173名。被试主要来自物理、数学和电子信息等理工科专业。所有被试均签署了研究知情同意书。

3.3 研究工具

本研究中的写作任务为基于阅读的概要写作。前测中,阅读文章的主题是大学生无薪实习,共437词,弗莱士易读度为50.1;后测中阅读文章的主题为人工智能带给人类的生存危机,共433词,弗莱士易读度为44.9。两个文本的篇幅和易读性大致相当。被试在阅读文本之后,需独立完成一篇100词左右的概要写作任务,时间为20分钟。

概要写作表现评价使用Yang & Plakans(2012)的概要写作分析性评分量表。该量表包含内容、结构、语言使用、转述4个维度,每个维度得分在0—5分之间。本研究采用“读—写型”概要写作任务,因此删除了听力材料相关的描述语。

写作自我效能感测量采用Zhanget al.(2022)的L2 RWSE量表。该量表包含自我调节效能感(SRE)、语篇整合效能感(DSS)和写作规范效能感(WCS)3个维度,共19题,每题分值在0—10分之间。本研究中的写作任务为概要写作,无需被试发表个人观点,因此与之相关的3个题项(DSS2、DSS6和DSS7)删除。研究者根据先导研究数据,运用Mplus 8.3对L2 RWSE量表进行验证性因子分析。根据模型修正提示,剔除了SRE2、SRE6、WCS1共3个题项后,模型拟合度良好,各指标结果为:χ2/df=1.944,p<0.001,RMSEA=0.074,CFI=0.924,TLI=0.905,SRMR=0.056。量表3个构面的组成信度(0.780—0.851)均大于0.7,收敛效度(0.472—0.588)均大于0.35,表明修正后含13个题项的L2 RWSE量表具有良好的信效度。

结合研究主题,访谈提纲参照Chen & Pan(2022)的研究包含4个方面:(1)被试对大模型反馈的感受;(2)LT组和TL组被试对教师反馈的感受;(3)被试在实验前后对概要写作任务的自我效能感变化;(4)被试关于有效使用大模型的建议。

3.4 实验过程

本研究的实验持续12周,被试每两周参加一次英语读写课程,在第1次、第6次课分别参加前测和后测。测试结束后,被试即刻填写L2 RWSE量表。第2—5次课期间,被试需当堂完成一项概要写作任务。所有被试均由同一位教师授课,教材、讲解内容和配套练习均保持一致。实验之前,所有被试均接受了大模型使用培训,通过随机抽样被试按班级分别接受LT(55人)、TL(78人)和LO(40人)反馈。

本研究采用的大模型系统为讯飞星火认知大模型。按照任伟等(2024)对反馈方式的分类,大模型为3组学习者提供明确纠正型反馈,直接指出并更正写作错误。被试当堂提交初稿后,LT组需在课后根据大模型的反馈修改作文。研究者要求被试首先利用大模型生成一篇范文,比对范文与初稿,并在内容维度上做出修改。然后,被试参考Atlas(2023)建议的提示词,由大模型在语法、标点、简洁性、用词、衔接与连贯等方面给出反馈。被试修改后将修改稿提交给授课教师,授课教师对概要中的问题给出元语言评论,指出问题所在,但不给出修改的参考样例。另外,教师对于概要中的优点给出直接评论予以鼓励。被试收到教师反馈后,再次进行修改,并提交终稿。LO组接受大模型反馈的步骤与LT组相同,但作文修改完成后即为终稿。对于TL组,授课教师在被试提交初稿当天便完成反馈,反馈方式与LT组相同。被试根据教师反馈意见,结合大模型反馈进行修改后,提交终稿。

半结构式访谈在后测结束后进行。研究者根据后测写作成绩,将被试划分为高、中、低3个水平组,随后从每组随机邀请3名被试参加访谈,每次访谈时长约30分钟。经被试明确同意,研究者对访谈过程进行了录音,录音再转写成文本。

3.5 数据分析

两位大学英语教师对概要文本进行评分。两位教师先共同研读评分量表,通过讨论确保对描述语理解一致后开始评分。最终得分取两位评分员的平均分。如果单个维度相差超过2分或总分相差超过3分,两位评分员进行协商,缩小评分差距后再取平均值。

研究者和一名助手根据Braun&Clarke(2006)的建议对访谈数据进行主题分析。第一步,两人通读访谈的转写文本,充分了解访谈内容。第二步,两人分别对每份访谈文本进行初始编码。第三步,两人比较所有访谈文本中的编码,通过共同讨论总结主题。第四步,两人从所有主题中归纳提炼出中心主题。第五步,两人基于达成的共识,对确定的中心主题进行命名和定义。

04

结果与讨论

4.1 学习者概要写作表现和写作自我效能感的总体情况

描述性统计分析结果(见表1)显示,前测中LO组(13.475)、LT组(13.736)和TL组(13.410)的概要写作表现处于中等水平,3组的写作自我效能感也处于中等水平(依次为89.750、87.036、89.103)。后测中3组的概要写作表现均有所提升(依次为14.575、15.409、15.269),而在写作自我效能感方面,LO组略有下降(89.400),LT组(90.364)和TL组(91.833)则有所提升。各变量的峰度和偏度均在-2至2之间,符合正态分布。大模型辅助反馈有助于提升学习者写作表现(Boudouaiaet al. 2024),这种促学效应在概要写作中同样存在。

打开网易新闻 查看精彩图片

4.2 大模型辅助反馈对概要写作表现的影响

对不同组别前测和后测概要写作表现的单因素方差分析结果显示,前测中3组在总分及各分项分方面均不存在显著性差异,后测中3组在语言使用、转述方面不存在显著性差异,但在内容(F=5.919,p=0.003)、结构(F=5.197,p=0.006)和总分(F=3.848,p=0.023)方面存在显著性差异。Tuckey HSD事后检验结果显示,LT组和TL组在内容、结构、总分方面均不存在显著性差异,而LO组与TL组的均值差分别为-0.371(p=0.003)、-0.337(p=0.008)和-0.694(p=0.054),LO组与LT组的均值差分别为-0.300(p=0.030)、-0.325(p=0.019)和-0.834(p=0.026)。

为考察纳入前测写作表现后分组因素是否仍然显著影响后测写作表现,研究者以LO组为参照组,以前测中的写作表现为协变量进行回归分析。表2分析结果显示,分组因素依然具有显著预测效应。表2中的LT组和TL组为哑变量,对应的回归系数为正数,说明在控制3组前测内容、结构和总分后,LT组和TL组后测中的相应写作表现优于LO组。

打开网易新闻 查看精彩图片

本研究中,在控制前测内容得分之后,分组因素对后测写作内容具有显著预测作用,LT组和TL组的内容得分显著高于LO组。这一结果可能与大模型在写作内容方面的反馈特点有关。主题分析显示,大模型反馈存在精准的偏差这一看似矛盾的特点。一方面,受访者认同大模型能准确理解原文内容。但另一方面,在原文主要内容的判断上,学习者和大模型有时会存在分歧。受访者S5认为:“大模型虽然能给我提供一篇概要范文,但是否是主要内容我有时不太确定,需要比对老师给我的反馈。”这说明,大模型生成的范文中可能纳入了非主要内容或者缺失了部分主要内容。

大模型在写作反馈中存在虚构事实的风险(Loet al. 2024)。本研究拓展了已有结论,发现概要写作任务中大模型基于原文提供的内容反馈未出现虚构原文信息的情况,但在原文主要内容的判断上可能存在缺陷。主题分析显示,大模型提供的反馈内容存在较为明显的随机性。当大模型就同一提示词进行多次反馈时,反馈之间会存在内容不一致的情况。这说明大模型并不能真正理解文本,而更多是利用了基于概率的算法(苏祺 2024)。

以上种种不足影响了大模型反馈的促学效果,而教师反馈则有助于学习者准确、全面把握原文主要内容。Graham(2018)认为写作者与教师、读者、评论者等共同构成写作共同体,而写作文本是共同体中各成员认知能力以及各种资源相互作用的结果。本研究中,学习者提交的概要终稿是学习者与原文、教师、大模型互动的产物。LT组和TL组学习者除与原文以及大模型互动,还与教师互动。由于教师主要采用元语言评论的方式进行反馈,并不直接提供修改样例,这为学习者修改文稿提供了必要支架,使得学习者可根据教师反馈意见有针对性地查阅原文,并在与原文的不断互动中加深对原文的理解。相比之下,LO组仅接受大模型反馈,被试难以确定反馈中是否包含了所有主要内容。

此外,主题分析表明教师反馈有助于学习者与大模型进行有效互动。虽然TL组和LT组在写作各维度和总分上均不存在显著性差异,但将教师反馈置于大模型反馈之前,有助于学习者提升提示词的精准程度,进而提升大模型的反馈质量。受访者S1表示:“如果没有老师反馈这个提示进去的话,它会生成一大堆没什么用的东西。”这表明提示词越精准,大模型的反馈越具有针对性(徐林林等 2024)。若将大模型反馈置于教师反馈之前,大模型通常会在被试概要的基础上重新生成一篇新的概要,而并非对被试概要进行修改,导致被试并不清楚自己概要中的优缺点,无法知晓应如何修改,从而降低了被试的学习收获感。受访者S4反映道:“它不能直接找出我文章里面有问题的这个点,然后只修改那个点。”本研究中被试虽然接受了大模型使用培训,但仍需在实践中不断摸索大模型使用,积累大模型使用经验。教师反馈可指导学生在具体任务中与大模型交互,提升数智素养。

4.3 自我效能感的中介作用

单因素方差分析结果显示,前测中3组在总体自我效能感及各组成构念上均不存在显著性差异,后测中3组只在语篇整合效能感方面表现出显著性差异(F=8.309,p<0.001)。Tuckey HSD事后检验结果显示,LO组的语篇整合效能感显著低于LT组(MD=-3.582,p=0.005)和TL组(MD=-4.190,p<0.001),但LT组和TL组无显著性差异。

为控制前测语篇整合效能感可能的影响,研究者进行了层次回归分析。表3分析结果显示,分组因素仍然具有显著的预测效应,LT组、TL组比LO组具有更强的语篇整合效能感。

打开网易新闻 查看精彩图片

本研究中,LT组和TL组的语篇整合效能感显著强于LO组。Bandura(1986)认为,成功经验有助于增强学习者的自我效能感。教师反馈采用元语言评论指出被试文稿中存在的问题,有助于促进被试的反思(Wu & Schunn 2023)。对于评论中的内容部分,LT组和TL组被试需根据反馈,查看原文后做出修改,从而体验到文稿质量的提升,获得成功经验。主题分析表明教师反馈具有启发性。受访者S2表示:“(老师提示)我文章后面的点没有抓住,然后(我)仔细去看那个part, 再看一遍的时候,我会有新的理解。”

被试在自我调节效能感和写作规范效能感方面不存在显著性差异,原因可能有二。其一,被试的写作规范效能感的初始水平较高,每个题项的平均值为7.325。其二,被试在高中阶段接受过大量读后续写训练,概要写作和读后续写都是基于阅读的写作任务,在自我调节效能感和写作规范效能感方面存在一定相通之处,因而被试可将自己在读后续写中掌握的写作技能迁移至概要写作。但是,由于读后续写并不过多涉及原文主要观点的判断与整合,语篇整合效能感也就缺乏迁移的基础。

研究者以语篇整合效能感的前后测变化情况为中介变量,以分组因素为自变量,前测写作成绩为协变量,后测写作成绩为因变量,采用Bootstrap方法,重复抽样5 000次,使用Mplus 8.3软件进行中介效应分析。表4分析结果显示,只有以后测内容成绩为因变量的2个中介效应模型显著,这表明相对于LO组,无论LT组还是TL组,语篇整合效能感在分组因素对后测写作内容的影响中均有显著的中介作用。

打开网易新闻 查看精彩图片

以上结果表明,结合教师反馈的大模型辅助反馈不仅能直接提升二语学习者概要写作的内容表现,还能通过提升学习者的语篇整合效能感间接提升内容表现,间接效应分别占总效应的53.85%(LT组)和35.34%(TL组)。这一发现证实了写作自我效能感是影响写作表现的重要因素之一(Teng & Wang 2023)。与教师反馈互动的学习者强化或修正了对原文内容的理解,比只接受大模型反馈的学习者更能感受到自身进步。自我效能感的中介效应也验证了Bandura(1986)的社会认知理论中关于环境、个体与行为之间动态交互的观点。结合教师反馈的大模型辅助反馈为学习者构建了一种通过师生机互动提供支架支持的学习环境,增强了学习者的语篇整合效能感,进而提升其概要写作的内容表现,部分揭示了大模型辅助教师反馈产生促学效应的内在机制。此外,结合教师反馈的大模型辅助反馈同样有助于提升学习者的写作自我效能感与写作表现(Sari & Han 2024)。

与以往研究(如Asadiet al. 2025)不同的是,本研究通过学习者的写作学习实效表明尽管大模型能够高效提供写作反馈,教师反馈仍然具有不可替代的作用。自我效能感的中介效应表明,大模型为二语教师减轻反馈负担后,教师可在反馈中注重给予学习者更多的启发和引导。这不仅能为学习者创造更好的促学环境,还能通过促进学习者情感层面的发展,提升整体育人效果。

05

结语

本研究探讨了大模型辅助反馈的不同形式对二语学习者概要写作表现的影响,发现与大模型单独反馈相比,结合教师反馈的大模型辅助反馈能够显著提升学习者在写作内容和组织结构方面的表现,增强学习者的语篇整合效能感,并且语篇整合效能感在大模型辅助反馈对写作内容表现的影响中具有显著的中介作用。

本研究能为二语写作教学提供一定启示。其一,在反馈设计上,教师可依循“教师主导、大模型执行”的人机协同反馈原则。教师聚焦诊断学情和指明修改方向,措辞润色、语法纠错等高耗时反馈任务可交由大模型完成。这既能使教师专注于更高层次的写作引导,也能充分发挥大模型反馈的高效优势。其二,在反馈流程上,教师可采用“先教师反馈后大模型反馈”。学习者可根据教师反馈意见,向大模型寻求具体的修改方案与范例。这有助于学习者更有针对性地与大模型互动,优化大模型生成内容的质量,提升写作水平。

当然,本研究也存在不足之处。被试来源于一所高校,后续研究可将不同高校英语水平更加多元的学习者作为被试。研究中的个体因素仅考察了自我效能感,今后可纳入自我调节等其他因素,深入考察大模型辅助反馈对于二语写作教学的作用机制与实效。

文章来源:外语界