自然语言处理技术下的二语写作语言 特征研究:回顾与展望
陈 怡
上海外国语大学
摘要
本文系统梳理过去二三十年来国内外运用自然语言处理技术进行的二语写作语言特征研究。文献回顾显示,各类自然语言处理工具在学习者语料库上的应用,不仅揭示了任务、体裁、话题等中介因素下的词汇复杂度、句法复杂度、语篇衔接等多维度语言特征与二语写作质量之间的关系,也为理解二语习得和二语写作能力的发展提供了有力的实证支持。文章还概括了最近几年这一研究领域的新进展,包括语言特征指标的拓展以及机器学习的深入运用。文章最后提出未来研究需要特别关注的两个重点方向,即理论框架的突破和技术范式的更新。
关键词::二语写作、自然语言处理技术、语言特征指标、机器学习
01
引言
随着计算机技术的发展,数据处理的自动化程度不断提升,极大地推动了基于学习者语料库的二语写作语言特征的研究。借助各类自然语言处理工具,研究者从各维度考察了二语写作的语言特征与文本质量、写作能力及其发展之间的关系,为二语写作教学研究提供了宝贵的数据支持。Crossley(2020)对这一领域的研究现状进行了回顾,但并非完全针对二语,也未提及中国学者的贡献,加之最近几年人工智能飞速发展,所以有必要再进行一个综合的回顾。本文旨在系统梳理过去二三十年来关于二语写作(主要是英语二语写作)语言特征研究的主要成果,选择代表性研究进行评述,总结最近几年的新发展,展望未来研究趋势,以期进一步推动数字人文视域下的二语写作教学和研究
02
自然语言处理工具与二语写作语言特征
2.1 应用于二语研究的自然语言处理工具目前应用于二语文本的自然语言处理工具大体可分为三类。第一类是较早出现的自动化词性标注工具,如Biber Tagger(Biber 1988)等。第二类是专用文本特征分析工具。继整合词汇、句法、语篇指标的多维度文本分析器CohMetrix(Graesser et al. 2004)问世之后,新一代分化更细的文本分析器纷纷出现。比如Lexical Complexity Analyzer(LCA)( Lu 2012)、 Tool for the Automatic Analysis of Lexical Sophistication(TAALES)( Kyle & Crossley 2015)和 Tool for the Automatic Analysis of Lexical Diversity(TAALED)( Kyle,Crossley & Jarvis 2021)专门用于分析词汇复杂度或复杂度下的成熟度/多样性,L2 Syntactic Complexity Analyzer(L2SCA)( Lu 2011)和Tool for the Automatic Analysis of Syntactic Sophistication and Complexity(TAASSC)( Kyle 2016)用于句法复杂度分析,Tool for the Automatic Analysis of Cohesion(TAACO)(Crossley,Kyle & McNamara 2016)针对语篇衔接性进行分析。第三类是通用自然语言处理库,如Stanford CoreNLP和Python的NLTK、spaCy、Gensim、Stanza 等 。上述各类自然语言处理工具的运用,显著提升了对学习者语料库的分析效率,极大地推动了二语写作语言特征的研究。
2.2 文本质量评估视角下的二语写作语言特征研究
运用自然语言处理工具从学习者笔语语料库中提取特定语言特征指标,并通过回归分析或结构方程模型分析这些指标对文本整体/分项得分或评级的预测力,是二语写作语言特征研究的核心议题之一。这类研究多以独立写作议论文为主,主要关注词汇复杂度、句法复杂度、语篇衔接性等特征维度。
2.2.1 词汇复杂度
词汇复杂度包括词汇密度(density)、多样性(diversity)和成熟度(sophistication),是文本质量评估的重要维度。研究表明,词汇复杂度与EFL写作质量呈显著正相关,更高的文本质量意味着更多样的词语以及更多以频率、分布和心理语言学属性为标识的高阶实词的产出(Crossley et al. 2010)。研究发现,指向二语写作质量的词汇复杂度还包括多元(n-gram)词语组,特别是二元和三元词语组在本族语参照语料库中的出现频率和关联强度(Kim,Crossley & Kyle 2018)。此外,还有研究通过提取构成搭配的二元词语组(Bestgen & Granger 2014)或具有特定依存关系但并不一定由相邻词构成的词语搭配(Paquot 2018),进一步证明了词语组合复杂度指标对二语写作质量的贡献度。
2.2.2 句法复杂度
句法复杂度也是评估二语写作文本质量的一个关键维度。研究表明,EFL议论文中的产出单位长度(尤其是子句平均长度)和复杂名词结构指标与写作质量密切相关(Kyle & Crossley 2018),但关于并列结构和子句指标的贡献度,相关研究结果并不一致。另外,微观层面的句法复杂度指标和宏观层面的句法复杂度指标孰能更好地预测EFL写作质量(Biber et al. 2020),子句复杂度与复杂名词结构指标在二语写作质量评估上的共现和互动关系如何(Biber,Gray & Staples 2016)等问题还需进一步研究。
2.2.3 语篇衔接性
有研究显示,局部衔接性指标(如连接词、相邻句子之间词元的重复或语义复现等)和整体衔接性指标(如词语形符/类符比、代词/名词比、指示词出现频率等)或负向预测EFL议论文的语篇组织得分,或与语篇组织得分无关(Crossley,Kyle & McNamara 2016),但也有研究显示部分局部衔接性指标能正向预测语篇组织得分(Abdi Tabari,Johnson & Gao 2024)。对于中观衔接性指标(如相邻段落之间词元的重复或语义复现等),虽然相关研究发现其与语篇组织得分呈正相关,但究竟是名词、代词词元还是虚词的重复使用具有指向作用,还需进一步研究。总的来说,语篇衔接性仍是一个关注不足的领域。
2.2.4 多层面综合
上述研究都是考察EFL议论文某一维度的语言特征与写作质量的关系,此外还有研究综合多个维度的语言特征,考察它们对写作质量的贡献度,如将词汇复杂度与句法复杂度相结合,词汇复杂度与语篇衔接性相结合,词汇、句法复杂度与语篇衔接性相结合,在此不一一赘述。另外,二语产出研究常用的复杂度准确度-流利度(CAF)框架下的准确度和流利度也常与词汇、句法复杂度或语篇衔接性相结合(Peng et al. 2023)。
由于研究所包含的语言特征维度不同,加之样本特征、样本量、处理工具等方面的差异,这类研究得出的结论有时差别较大。另外,就某一语言特征与文本质量的关系而言,综合多个维度的研究与聚焦单一维度的研究结果也有很大差异。例如,Peng et al.(同上)的研究显示,与词汇使用偏误和文本长度相比,词汇复杂度对EFL写作整体得分变异的解释作用很小,这与上文提到的仅关注词汇复杂度的研究结果迥然不同。这些都值得在今后的研究中予以关注。
2.2.5 中介因素的影响
二语写作的质量不仅由二语写作能力决定,还受到诸多中介因素的影响。通过自然语言处理工具,已有研究探讨了在不同中介因素下不同语言特征指标对写作质量预测的差异。这些中介因素包括不同的任务形式(如无材料独立写作、综合性写作)(Guo,Crossley & McNamara 2013;Kyle & Crossley 2016)、写作体裁(如议论文、记叙文、说明文、书信)(Zhang,Lu & Li 2022)、话题或写作提示等(Yang,Lu & Weigle 2015;何莲珍、孙悠夏 2015)。上述研究表明,不同类型的二语写作既具有共同的质量预测指标(如文本长度、句法复杂度下的复杂名词结构),也具有各自独特且对评分敏感的特征性指标。
尽管如此,还有几个问题需要关注。第一,研究结果之间仍存在很多不一致之处。例如,Guo,Crossley & McNamara(2013)发现词汇成熟度对于综合性写作和无材料写作都是一项重要的质量预测指标,而Kyle & Crossley(2016)的研究却表明,虽然综合性写作能使学习者产出更复杂的词汇,但包括二元词语组在内的词汇多样性和成熟度并不能预测这类写作的质量;相反,这两项指标是无材料写作质量的重要预测指标。第二,除了Zhang,Lu & Li(2022),基于体裁因素考察多维度语言特征对写作质量的预测力的研究还不多见。此外,对议论文与其他体裁的预测指标进行比较的研究也很有限,这限制了相关结果的概推性。第三,话题因素如何影响语言特征对二语写作质量的贡献度尚待进一步探究。
2.3 二语习得或二语能力发展视角下的二语写作语言特征研究
除了文本质量评估的视角,还有研究从二语能力发展的视角出发,通过自然语言处理工具动态追踪二语写作语言特征指标的变化。需要说明的是,上文评述的一些研究结合了文本质量评估和二语能力发展这两种视角(如Bestgen & Granger 2014;Abdi Tabari,Johnson & Gao 2024)。 Yoon & Polio(2017)等研究则专门纵向分析了学习者在EFL写作中某一或多个维度语言特征的动态发展情况,还考察了体裁、话题或任务形式等中介因素对语言特征发展的影响。这些研究主要有三个发现。第一,随时间显著发展的语言特征指标与同质量评分显著相关的指标有时并不一致(Crossley & McNamara 2014),因此,有效的发展性指标并不一定能被假定为衡量写作质量的有效指标(Lu 2011)。第二,语言特征的发展并不一定呈线性上升的态势(Bulté & Housen 2014)。第三,体裁、话题或任务特征等中介因素对不同维度语言特征发展的影响不同,对词汇和句法复杂度指标的影响总体较大(Yoon & Polio 2017);即便是在同一维度内,这些因素对具体语言特征发展的影响也不一致,如写作体裁对句法复杂度下从属或并列子句的发展就没有明显影响(同上)。需要注意的是,这些动态发展研究大多以句法复杂度为焦点,对其他特征维度的关注度还不够。另外,一些动态研究采用了类纵向(pseudo-longitudinal)方法,并非对同一批学习者群体展开持续追踪,而是通过不同水平组之间的比较来模拟二语发展过程,这在一定程度上可能影响研究结论的效度,未来的研究需要更多地进行纯纵向研究,以增强结论的解释力。
此外,还有研究关注的是语言特征指标的变化或差异对二语习得理论的意义。例如,Lu & Ai(2015)通过对比不同母语背景的EFL写作者在多个指标上的表现,验证了语言迁移理论;何莲珍、姜子芸(2023)通过考察考生的工作记忆容量差异与写作文本特征的关系,进一步加深了对认知负荷假说的理解;王丽萍、吴红云、Zhang(2020)通过分析不同任务复杂度下的文本语言特征,验证了“竞争假说”和“认知假说”;还有研究通过探讨二语发展过程中写作文本流利度与语篇衔接性的多维交互(张超、梁文花 2022)以及句法和词汇复杂度的发展(郑咏滟、冯予力 2017),证实了动态系统理论的解释力。此外,一些研究通过自然语言处理工具聚焦二语学习者对某一特定目标语特征的习得,如定语从句(Alexopoulou et al. 2015)、次范畴结构(Huang et al. 2021)、程度表达式(Cong 2024)等。总体而言,这些研究展现了自然语言处理技术在服务理论探讨和验证方面的重要作用。
03
二语写作语言特征研究的新进展
3.1 语言特征指标的拓展
近几年来,自然语言处理工具与语言学理论的深度融合促进了二语写作语言特征指标在词汇、句法和语篇衔接等多个维度上的创新。例如,在构式理论和基于使用的语言习得理论的基础上,Kyle & Crossley(2017)提出了以大型本族语语料库为参照的主动词词元出现频率、动词论元构式(VAC)出现频率、主动词词元与VAC 组合的出现频率、主动词词元与VAC 的关联强度这四项句法复杂度新指标。他们发现,基于使用的句法复杂度指标能解释比传统指标更多的EFL作文得分方差。另外,也有研究同样以基于使用的语言习得理论为基础,但更关注句法构式复杂度中的产出多样性。例如Hwang & Kim(2023)开发了基于依存句法分析的构式多样性分析器,他们的研究表明构式的多样性和特定构式的出现比例也能有效预测EFL写作文本的质量。
除了基于使用的语言习得理论,以依存语法、分布语义等为代表的,本身就基于计算或自然语言处理的语言学理论,也为二语写作的语言特征分析提供了新视角。以依存语法理论为例,它为评估二语写作质量和分析写作能力发展提供了新的句法复杂度指标。Ouyang & Jiang(2017)通过对EFL写作文本进行依存关系解析后发现,从初中一年级到英语专业研究生九个不同阶段写作文本依存距离的概率分布较好地反映了学习者目标语写作能力的发展;Ouyang,Jiang & Liu(2022)的研究显示,相较于传统的基于句法结构长度或数量的复杂度指标,平均依存距离能更好地区分初级、中级和高级阶段的EFL写作文本。另一方面,基于依存关系类符/形符比的句法多样性指标也进一步拓展了句法复杂度的内涵(Bi & Jiang 2020)。
语境在意义的生成和理解中起关键作用,基于分布语义的词向量技术可以更精准地识别多义词在特定语境下的语义,为二语写作质量分析提供具有语义感知的特征指标。例如,Lu & Hu(2022)使用 BERT模型对参照词典中多义词的例句进行词义向量标注,通过词向量相似性计算确定EFL作文中多义词的确切语义,进而提出了具有语义感知的成熟词形符根植比、具有语义感知的成熟词类符根植比、单个词语词义数量的对数均值这三个词汇成熟度指标;与传统的TAALES 指标相比,前两个新指标与EFL写作得分的相关性更强。类似地,Lu & Hu(2024)还提出了34个具有语义感知的语篇衔接词词形指标,如语篇衔接词词形的数量、密度、多样性等,这些指标不仅区分了某一词形在上下文中是否真正具有话语衔接功能,还明确了它们在语境中所表达的特定衔接关系,如对比、因果、扩展、时间关系等。此外,Monteiro et al.(2023)分别利用潜在语义分析(Latent Semantic Analysis)和 Word2Vec 模型提出了一组基于参照语料库中词向量相似性计算的情境语义指标,用以衡量词语的语义丰富度和独特性。他们的研究发现,EFL高分作文中往往较少使用语义丰富度高的词语,但较多使用语义独特性高的词语。
无论是上述哪一种新指标,其背后都反映了基于认知的语言习得理论(Ellis 1999)的核心思想。该理论强调学习者通过基于经验的统计学习机制,在具体语境中对语言输入进行信息加工并形成心理表征,从而为包括语言特征分析在内的二语研究提供更为坚实的学理基础,不仅“体现了认知心理学的经验主义,即通过观察和实验来探索关于世界的真理”,也“融合了认知科学家的理性主义,即通过构建数学、逻辑或计算模拟等形式系统来形成理论”(同上:22)。从这个意义上说,自然语言处理技术与语言学理论完全契合,有力地推动了二语写作语言特征的研究。
3.2 机器学习的深入运用
机器学习指一系列基于已知数据对新数据进行分类的广泛技术。近年来,二语写作特征研究所涉及的机器学习技术越来越先进和多样化,而且机器学习也日益走向前台,研究者们不再满足于仅仅使用现成的文本分析器,而是直接使用各种机器学习技术创建语言特征指标或识别关键特征。上文提到的Lu & Hu(2022,2024)、 Monteiro et al.(2023)等研究就是典型的例子。又如,Ma,Wang & He(2024)运用决策树方法,识别出了能够清晰区分“欧洲语言共同参考框架”下不同等级EFL写作文本的11个Coh-Metrix指标,并且找出了每个决策点上影响分类的指标阈值。Latifi & Gierl(2021)使用随机森林算法对大批量作文进行自动评分后发现,不同任务形式写作文本的语言特征的信息含量是不同的,如何保留自动化评分中的语言特征不仅取决于写作文本本身,还取决于题目提示等特征。再如,Tang et al.(2024)通过结合多种自动化文本分析工具得出的语言特征指标与各种常见机器学习算法,比较了这些算法在自动评分上与人工评分基准的差异。他们的研究不仅评估了不同算法的性能,还通过线性和非线性模型,揭示了文本语言特征与整体评分及各分项评分之间的关系,虽然这一研究针对的是英语母语写作,但同样适用于二语写作。
作为机器学习中日益发展的一个分支,包括大语言模型在内的神经网络模型近年来也被引入二语写作特征研究中2。例如,Crossley & Holmes(2023)比较了三种EFL写作语料的自然语言处理方法在预测学习者词汇能力方面的表现,它们分别是基于TAALES传统语言特征指标的线性回归模型,基于Word2Vec 的分布语义嵌入模型,以及基于BERT的语义嵌入深度学习神经网络模型。他们的研究表明,BERT 模型在预测学习者词汇能力方面表现最优。这些研究凸显了大语言模型在捕捉词汇使用语境和语义精度方面的有效性。比起传统的自然语言处理工具,基于大语言模型的词性标注和句法解析工具已在二语写作语言特征的研究中展现出优势,但这些工具的性能还依赖于训练数据的数量和质量(Kyle & Eguchi 2024)。 Kyle & Eguchi(同上)发现,在本族语语料训练的基础上,经少量二语语料训练的词性标注和句法解析模型在二语语料的处理上优于仅经过本族语语料训练的模型。另外,通过BERT、ChatGPT 等大模型还可直接定制对包括指向话语功能在内的语言特征的自动化标注(Eguchi & Kyle 2024)。因此,对大模型工具进行经过高质量标注的目标语语料训练或微调,进一步提升自然语言处理标注的精准度,可能是今后二语写作语言特征研究的一个重要内容。此外还有一个问题值得探索。虽然现在大语言模型能较准确地识别学习者写作中的错误(Mizumoto et al. 2024),但如何精准定义语言准确度并对错误类别分配权重仍是一个充满争议的问题。今后的研究应在这方面有所突破,尤其是神经网络中的“自我注意”机制可以模拟评分员根据错误的性质和上下文来分配注意力,通过调整权重来反映这种注意差异。
04
进一步思考与展望
进入21世纪以来,二语写作语言特征的研究呈现出蓬勃的发展态势,学习者语料库为这些研究提供了坚实的数据基础,而自然语言处理技术的进步则为研究提供了强有力的技术支持。相关研究在深化理解二语写作能力各分支构念、完善评分量表、推进评分自动化、优化诊断性评估、追踪二语学习者写作能力发展轨迹,以及深入理解和验证二语习得理论等方面都提供了很有价值的信息。结合上文的梳理,今后研究的一个方向是,在已有的研究框架下,通过更大规模的学习者语料、更标准化的语言能力评估框架以及更精准的自然语言处理方法进行更多的复制研究,以进一步厘清先前研究结果的不一致之处,或加强先前研究着力不足之处。更为重要的是关注如下两点。
第一,理论框架的突破。当前二语写作语言特征研究大多假设:写作质量或能力发展可以通过可量化的语言特征的线性组合加以预测或解释。然而,这一假设在很大程度上简化了二语写作能力这一复杂构念。未来研究有必要突破这种以单向预测或解释为导向的视角,探讨各类语言特征在构建二语写作能力中的互动关系及多元协同机制。正如Ortega(2015:91)所言,“我们需要更有力的、包含更多变量并具有非线性特征的思维方式”,“必须在研究设计和统计分析方案的制定中,充分体现这些变量,并捕捉它们之间复杂的交互作用”。此外 ,在 CAF框架尤其是在复杂性维度上,我们亟须将语言形式特征与其所服务的语义建构和交际功能相连接。形式上的“更复杂”并不必然指向更高的二语能力(Yasuda 2024),准确性、流利度和复杂性等局部波动也不能充分反映任务型二语习得的本质(Lambert & Kormos 2014)。因此,应重视研究不同能力阶段的二语学习者在具体的写作情境中,如何通过特定的语言资源完成任务且达到交际适切性(communicative adequacy),并追踪其语言特征指标如何随交际需求和语境适应能力的提高而演化。这种以意义和功能为驱动的视角,有望更全面地揭示文本语言特征与二语写作能力构念之间的动态关系。
第二,技术范式的更新。机器学习特别是深度学习为二语写作语言特征研究提供了前所未有的建模能力。这些神经网络模型在捕捉语言使用的上下文敏感性、语义深度和结构复杂性方面具有显著优势。然而,其“黑箱”特性也引发了学界对可解释性的担忧。因此,将反映形式、意义、功能的语言特征指标与神经网络模型相结合有望逐渐成为研究前沿。这一范式不仅可以拓展二语写作语言特征的研究范围,而且借助可解释人工智能(explainable AI),研究者得以追踪模型决策路径,从而将数据驱动的预测/解释与理论驱动的预测/解释有效结合,“助力二语研究者构建涉及意义、意图、推理和语用等维度的二语知识与发展模型”(Crossley & Holmes 2023:22),拓展可与基于特定任务的分析性评分量表实现多维互通的二语写作语言特征指标体系。尽管这种结合可能颇具挑战,但神经网络模型的潜力不容忽视,期待大语言模型的应用给二语写作语言特征研究带来新的突破。
文章来源:外语教学与研究
热门跟贴