李彤彤等 | 破解在线讨论评价困境：交互深度的智能化评价方法探索|大模型|智能化|李彤彤|神经网络|算法|贝叶斯

关注“在线学习”

获取更多资讯！

刊载信息

李彤彤，李国涛，刘金佑，马梦纯，边雨迎，周彦丽，& 郭栩宁.(2025).破解在线讨论评价困境：交互深度的智能化评价方法探索. 中国远程教育(8),95-115.

破解在线讨论评价困境：交互深度的智能化评价方法探索
李彤彤, 李国涛, 刘金佑, 马梦纯, 边雨迎, 周彦丽, 郭栩宁

【摘要】如何有效评价并提升交互深度是提高在线讨论效果的关键。然而，当前缺乏有关交互深度评价的系统性研究以及可操作的评价方法或工具。本研究围绕“如何科学有效地评价交互深度”这一问题，以在线临场感框架为理论依据，构建了适用于智能化评价的评价模型，并以文本挖掘作为主要技术支撑，综合统计计算、机器学习、深度学习、大语言模型等多种方法，设计了交互行为维度下交互频度、持续度、关联度的统计计算算法，以及交互内容维度下文本语言可读性、话题相关性、情感特征、意义特征的智能计算算法，并开发了相应工具，能够实现实时、自动对单条帖子、个体、小组、群体在不同维度的表现进行相对评价。研究提出的评价方案综合考虑多维指标，且基于智能化技术对在线讨论客观数据进行实时挖掘，实现对交互深度的自动化评价，使评价指向深度学习且走向常态化实践，能够为在线讨论活动的优化提供有效、可行的支持。

【关键词】在线讨论; 交互深度; 智能化评价; 临场感

一、

引言

在线讨论是在线学习环境中学习者与同伴、教师等围绕某一问题分享见解、交流观点的互动过程。作为师生、生生交互的重要途径，高质量的讨论能够缓解在线临场感缺失的问题，削弱学习者在线学习的孤独感，而且对提高学习者批判性思维、知识建构、沟通交流、团队协作等能力有着重要的作用（Kent et al., 2016）。通过调研发现，大多数课程在线讨论区学习者只是简单回答问题，师生或生生之间很少有深度互动，有些讨论区甚至“形同虚设”（Cesareni et al., 2016），远未发挥其应有潜力和价值，严重影响了在线学习效果。如何提升在线讨论交互深度成为提高在线学习质量的关键问题之一。

有效干预以提升交互深度的必要前提是对其进行科学的评价。然而在线讨论是基于文本进行的交流活动，学习者自由度比较高、表现多样化，其参与、贡献、能力发展等很难通过量表、试题等传统评价方法进行判断。文本内容分析虽然能在一定程度上反映交互的深度层次，但是人工编码需要耗费大量的人力和时间，在实践中难以推广应用。受限于当前评价体系不完善以及评价工具的缺乏，在线教学实践中对讨论活动的评价，大多是不评价或基于经验简单评判或基于发帖量、阅读数、点赞数、平均发言字数等评测指标进行评价，缺乏对交互意义等深层次指标的评价（郑娅峰等, 2017）。以上困境已经成为在线讨论研究与实践发展的瓶颈。

随着人工智能技术尤其是自然语言处理技术的发展，可以通过对讨论文本、交互关系等大数据的深度挖掘智能识别学习者的情绪状态、认知水平等信息，这使得对在线讨论的智能自动化评价成为可能。当前已有研究开始尝试应用机器学习、深度学习等算法对讨论文本进行自动分类或挖掘（Duan et al., 2014; Zhou et al., 2016），但是这类研究还处于初步探索阶段，尚没有能够常态化应用的在线讨论交互深度自动化评价工具。因此，本研究针对“如何科学有效地评价交互深度”这一问题，以在线临场感框架为理论依据，以文本挖掘为技术支撑，探究在线讨论交互深度的智能化评价方法。一方面，本研究基于在线临场感框架，面向基于数据挖掘的智能化评价，构建了交互深度评价模型，为评价提供依据；另一方面，本研究采用自然语言处理等技术，设计了语言可读性、话题相关性的评估算法，并基于机器学习、深度学习、大语言模型等训练了文本情感特征和意义特征的分类算法，实现对交互深度的智能自动化评价，为评价在线讨论提供可操作的算法和工具支持，以期破除评价难的困境。

二、

相关研究

（一）在线讨论评价相关研究

已有研究虽然鲜有专门针对在线讨论评价的系统化探讨，但是研究者和实践者进行了大量的相关探索，评价维度渐趋多元化，评价方法也朝着更加科学、智能的方向发展。

从评价维度来看，早期部分研究以简单的行为计量指标（如发帖数、回复数、点赞数等）来评判讨论交互的质量（Jonassen, 1996, p.708; Levin et al., 1990; 彭敏军等, 2011）。随着互动分析方法的发展，大多数研究以讨论过程中的认知发展、社会关系、知识建构等某个或某些方面作为交互效果的衡量指标。1）以认知水平层次作为帖子质量的评价标准。通过对讨论发帖进行内容分析，以编码得到的知识建构、批判性思维层次等来评价单条帖子的质量，常用的内容分析编码框架如交互分析模型（Interaction Analysis Model，IAM）（Gunawardena et al., 1997）、布鲁姆认知领域的教育目标分类框架、批判性思维过程指标体系（Murphy, 2004）等。通过不同认知水平层次的发帖数量占比，进一步评价个体或群组的交互水平。2）以社会关系结构作为交互质量的评价标准。此类研究通常以学习者个体作为节点，基于学习者之间的相互回复、引用等互动行为，分析学习者之间的交互结构、中心性、核心—边缘角色的改变等规律（刘清堂等, 2018），并以此评估群组交互的质量。3）以观点隐含的知识或主题判断建构状态。例如，有研究通过挖掘讨论文本中的关键词并与领域知识图谱进行相似度计算，进而判断观点的词汇关联程度（马志强等, 2022）；或通过话题挖掘来理解讨论内容背后的知识或主题（刘三女牙等, 2017）；还有研究提出基于IIS图的分析方法，通过知识网络图的不断建立和更新来判断群体的知识建构状态（Zheng, 2017）。此外，也有研究提出应综合多维指标来评价讨论质量。如闫寒冰等（2018）指出在线讨论质量分析框架应围绕话题质量、讨论参与和讨论深度三个要素进行建构；衷克定（2005）指出应基于学习者的精神归属感、自律调节意识、道德规范观念三个维度来判定在线讨论的质量；Liu等（2020）考虑讨论内容的话题、语言和组织，构建了包括相关度、礼貌度和议论能力三个维度的标准来描述讨论质量；王丽英和张义兵（2020）从观点本身的可读性、相关度、内聚度、纵深度和探究度五个维度构建了观点质量评价模型等。

从评价方法来看，实践中对讨论活动是基本不评价、偶有教师凭借经验进行评价或基于发帖条数、字数等进行简单评价。已有研究中对在线讨论的评价一般是通过对交互过程和交互内容数据进行挖掘分析来实现的，以事后分析为主，主要采用内容分析、社会网络分析、滞后序列分析等方法。自然语言处理、大数据等技术的发展为智能分析提供了可能，国内外研究者已开始了自动化分析的初步探索。一些研究者采用机器学习算法训练模型，实现文本的自动分类。例如有研究（Almatrafi et al., 2018）通过朴素贝叶斯（NB）、支持向量机（SVM）、随机森林（RF）、逻辑回归（LR）等算法构建了可以用来识别讨论区中需要被教师关注和回应的紧急讨论帖的预测模型，帮助教师有效地确定帖子响应的优先级；也有研究（Pillutla et al., 2020）训练了RF、DT、SVM算法用于对文本的自动分类，分析了学习者知识建构水平；等等。机器学习算法在复杂语义理解上常常表现效果一般，而深度学习在复杂语义上的学习能力优势明显，近些年也有研究者开始使用深度学习技术对协作交互文本进行分析。例如，有研究（Chen et al., 2020）通过训练基于长短时记忆神经网络（LSTM）的端到端深度学习框架以及基于概率的贝叶斯网络模型，对协作小组语音、姿态以及文本进行分析，进而预测知识建构能力；也有研究（甄园宜 & 郑兰琴, 2020）采用基于深度神经网络的卷积神经网络（CNN）、长短时记忆（LSTM）、双向长短时记忆（Bi-LSTM）等方法，实现了在线协作学习交互文本的自动分类；还有研究（Fiacco & Rosé, 2018）针对当前分析模型学科迁移能力较差的问题，提出了一种可迁移的注意力模型来分析知识建构能力。随着ChatGPT等生成式大语言模型的出现，也有些学者探讨了大语言模型在文本信息抽取任务上的有效性，但是大语言模型应用于在线教育领域的研究和实践还相对缺乏。

（二）在线讨论交互深度相关研究

已有研究较少探讨交互深度的概念，但学界将其视为衡量交互质量的核心指标。虽然目前尚无明确的界定，但是已有研究的共识是交互深度与有意义的交互内容密切相关，与知识建构水平、批判性思维水平、认知参与程度等指标具有一致性（戴心来 & 刘聪聪, 2019; 郭玉娟 & 陈丽, 2022），且知识建构或批判性思维或认知参与水平越高，交互深度层级越高（梁云真等, 2017; 陈蓓蕾等, 2019）。同时，交互深度与深度交互密切相关，戴心来和刘聪聪（2019）认为深度交互是一个复合词语，起源于“交互”延伸于“深度”，具体体现在互动形式、互动内容和互动过程上，即互动形式上每个个体能够积极主动地参与交互，个体之间紧密互动、相互联通；互动内容更加贴近主题、意义丰富、体现更深层次的理解水平；互动过程中每个个体能够专心、集中、持续创造或参与交互等。可见，深度交互状态是交互深度的表征。由此，本研究认为交互深度是对个体或群体的交互状态及质量进行衡量的标准。相较于交互质量、交互效果、交互水平等概念而言，交互深度更关注交互形式及其基础上的意义建构程度、交互结果及其基础上的能力提升等深度学习要素。

（三）现状述评

已有研究对交互质量或效果的评价缺乏系统性的、被广泛认可的、可操作的标准，也尚没有能够对在线讨论进行自动化评价的工具，而且事后的、人工的内容分析难以进行常态化实践应用。针对此问题，本研究旨在构建交互深度的评价模型，并开发相应的自动化评价工具。

首先，在评价对象和指标确立方面，已有研究表明，通过对讨论过程、讨论内容等数据进行分析和挖掘，可以揭示学习者的兴趣话题、情感态度、社会关系、认知心理等多维特征。但是，现有的学习分析研究更多是揭示讨论过程的一些规律，并不指向评价，存在与学习评价、设计割裂的现象，降低了学习分析的价值。加之当前的分析对象多关注小组或群体层次，忽略学习者个体层次，不利于个性化学习干预。本研究从评价的视角重新梳理这些复杂要素，关注学习者个体和群体两个层次，深入挖掘交互深度与交互数据的关联。

其次，在评价模型构建方面，目前聚焦在线讨论评价的系统性研究相对匮乏，多数研究是在探究影响交互深度的因素或促进策略时提及以某种指标来衡量深度。不同研究者的考虑视角不同，提出的评价维度涉及观点本身、观点中隐含的建构层次、观点语言的礼貌度、学习者的情感态度等方面。整体上，研究更多关注的是认知层面，对讨论过程中学习者能力、情感等的发展重视程度不够。在线讨论作为一种高阶的复杂学习过程，其价值早已超越单纯的认知层面，而是对学习者的4C能力、情感价值观等方面都有着深刻的影响。因此，本研究在设计评价模型时将考虑讨论过程中的多维要素，兼顾情感与能力发展目标，同时将基于对客观讨论数据的挖掘实现更为真实的评价，避免主观量表等替代性评价方案可能带来的偏差。

最后，在评价方法层面，目前在线讨论交互分析多以事后的、人工的内容分析为主，主观性强，难以准确评价，而且会耗费大量的人力和时间成本。同时，其操作难度大，只适用于进行小样本或小规模的分析，难以实现持续跟踪评价，更难以常态化应用。因此，本研究引入自然语言处理技术，通过机器学习、深度学习、大语言模型等算法实现对交互深度的智能自动化评价，为在线讨论活动的常态化评价提供可操作的方法与工具。

三、

基于临场感理论的交互深度评价模型构建

科学、合理的评价模型是进行有效评价的前提。本研究基于对讨论数据的挖掘实现交互深度的评价，如何合理挖掘数据特征以反映出交互深度是评价的关键。通过对在线讨论过程、交互特点、交互质量影响因素、评价内容和方法等进行充分的理论推演，经过访谈与专家咨询，本研究以在线临场感为评价依据，综合技术层面上讨论文本等数据的特征，面向基于文本挖掘的智能化评价，设计了如图1所示的交互深度评价模型。模型遵循学习分析的逻辑，以在线临场感为桥梁，建立了交互深度与多维交互数据的关联。

图1 基于临场感的在线讨论交互深度评价模型

（一）临场感框架：交互深度评价模型的构建依据

在线临场感框架揭示了深度学习所必需的交互过程以及促成良好学习体验的核心要素，对在线教育教学实践与研究产生了重大影响，全球众多研究者基于在线学习、混合学习、同步或异步交流等不同情境对其进行了验证（吴祥恩 & 陈晓慧, 2017; 冯晓英等, 2018; Hilliard & Stewart, 2019）。在在线讨论情境中，深度交互的发生同样有赖于多维且高水平的临场感。

一方面，临场感具有主客观双重属性，存在于个体和群体之间，可以反映交互的过程和状态，进而反映交互深度。作为一种客观存在，临场感表示当某个人处于某一具体情境，该情境使个体获得充分的现场感和存在感，也能让其他人感知到此个体的存在（郑燕林 & 柳海民, 2013）。临场感也常用以表征学习者的主观感受，例如学习者感知到教学指导的存在。临场感是由学习者与教师、学习伙伴、学习资源之间的交互创设出来的，也可以反映学习者实施相应行动或表现的能力。根据上述分析，临场感能够表征学习者个体的交互状态和能力，又是学习者通过多方面的交互表现出来的。同时，丰富、深度的交互可以进一步增强临场感，而高临场感又可以进一步推动交互走向深入。

另一方面，在线临场感框架所提出的细分的临场感全面涵盖了促成深度知识建构的交互要素。该框架最早可追溯至D. 兰迪•加里森（Garrison, D. R.）等将探究社区理论应用于在线学习领域，认为在线学习中存在三个关键要素：社会临场感、教学临场感、认知临场感（Garrison et al., 1999）。深层次的学习是通过三维临场的相互作用发生的，只有当这三个方面的临场感水平都较高时，有效的学习才会发生（Garrison & Cleveland-Innes, 2005）。随后有研究（Cleveland-Innes & Campbell, 2012）指出，学习者在情绪、情感等方面的表现应进行单独考察，并由此提出情感临场感这一要素。这些细分的临场感能够全面反映在线讨论过程的多维交互深度，其中，认知临场感能够衡量学习者通过持续反思与对话建构知识的能力，能够反映认知发展的深度（Garrison et al., 2010）；社会临场感反映学习者对讨论社区的认同归属、对环境的信任，反映了群体为知识建构提供社会性对话支持的质量（Garrison & Arbaugh, 2007）；教学临场感则强调学习群体在组织、调节、指导交互过程中所起的关键作用，直接关系到讨论活动的有效推进与方向引领（Anderson et al., 2001）；情感临场感与任务完成度、指导接受度以及社会关系等均紧密相关，是认知、社会、教学等要素与学习者感知交互作用的产物，也会反作用于交互过程，影响协作氛围和交互深度。

综上所述，临场感框架所强调的“以交互创设临场感进而实现深度学习”的理念与交互深度所关注的“深度交互、意义建构、能力发展”等目标有着高度的内在一致性。以临场感作为交互深度评价框架的构建依据，可以全面考量交互过程的教学、认知、社会、情感等多方面的状态，使评价面向深度学习，整合多维交互要素。

（二）多维临场感的交互数据表征

已有研究编制了测量量表及内容分析框架用以判断临场感水平，以此表征在线学习的深度。典型的测量量表如英文版探究社区量表（Arbaugh et al., 2008）、中文版探究社区量表（马志强, 2017, p.190）、修订的中文版探究社区量表（兰国帅等, 2018）等。典型的内容分析框架如临场感内容分析框架（Shea et al., 2010）、在线协作交互文本编码体系（刘君玲等, 2020）等。已有量表和内容分析框架一般是从四维交互（社会、认知、情感、教学交互）角度进行设计的，量表法基于学习者自我判定进行测量，关注的是学习者的主观体验。内容分析法基于对讨论文本内容的分析进行判断，更关注学习者在讨论过程中的客观表现。无论是量表法还是内容分析法，由于分析数据较为单一，难以全面反映学习者的临场感水平。

面对在线讨论情境下智能化评价的需求，需要建立合理的分析模型，通过多维的交互数据系统全面地表征临场感。在线讨论情境中，临场感是通过教师、学习者、学习资源之间的交互创设的，同时也是由其交互表现出来的，因此，可以通过学习者的交互行为和交互内容来表征临场感水平，进而反映交互深度。1）教学临场感强调参与者（包括教师和学习者）实施组织和设计、促进和指导行动的能力。一方面，可以通过交互内容中所隐含的教学意义，即文本中所隐含的组织、帮助、指导类的意义表现出来；另一方面，还体现在学习者与学习伙伴之间的互助关系（交互关联度）方面等，例如某学习者中心性较高，则表明该学习者会对讨论起到一定的主导或组织作用，表现出较高的教学临场感。2）社会临场感强调学习者有目的地进行交流、社会化地表达自己、建立人际关系的能力。作为学习者人际交互和社会氛围创设的关键衡量指标，主要通过学习者的活跃程度（交互频度、交互持续度）、学习者之间的社会网络关系（交互关联度）以及交互内容中所隐含的社会意义（社会交流类话语）等表现出来。3）认知临场感则主要关注学习者通过持续的协作与反思活动进行意义建构的能力（Redmond & Lock, 2006），主要通过交互内容的相关性（是否与主题相关）、所隐含的认知意义（分享、反思等）等表现出来。4）情感临场感侧重关注学习者通过情感表达、情感反馈等来创设社区精神情感层面的归属感、信任感等方面的能力（Derks et al., 2008），主要通过交互内容的情感特征及其中隐含的表达情感的社会交流表现出来。

（三）交互深度评价维度与观测指标

智能化评价是基于数据和算法做出智能化评判，综合上述理论分析、交互数据特征等，本研究提出了交互深度评价维度与具体观测指标（如表1所示）。

表1 在线讨论交互深度评价维度与观测指标

1. 交互行为维度

交互深度的行为属性表现为在线讨论是学习者与学习伙伴、教师等通过文本进行的一系列互动行为。正是这些复杂的互动行为为信息流通与深度交互提供了渠道，是深度学习发生的基础。交互行为动态揭示了学习者在讨论过程中的外显行为，反映出学习者在讨论中的活跃程度、关联程度、寻求互动的程度等。交互行为可以通过交互频度、持续度和关联度来刻画。

第一，交互频度主要通过学习者的发言数量情况分析其是否积极参与了交互，对应的观测指标如参与人数、发言数量、人均发帖量等，数量越多表示频度越高，学习者越积极。

第二，交互持续度主要通过讨论的持续情况和集中程度分析学习者是否专注、持续地参与交互，可以通过讨论的响应时间、持续时间、发言间隔等指标观测，响应时间短、发言间隔短、持续时间长，表示发言密集且持续，代表群体持续专注地参与了交互。

第三，交互关联度主要通过社会网络分析挖掘学习群体的社会网络情况、学习者在交互网络的位置和贡献，从而判断交互结构和社会关系紧密程度，一般通过网络密度、点度中心度、中介中心度等指标来衡量。点度中心度高，代表此个体与其他个体的连接更紧密，其在社会网络中的影响力也越大；中介中心度越大，表示该节点的控制能力越强，节点对应的学习者在引导其他成员进行知识共享和建构方面的话语权越大；网络密度高，代表群体成员之间联系紧密，成员之间的协作知识建构水平通常更高。

2. 交互内容维度

交互深度的内容属性表现为在线讨论是基于文本的互动交流过程，个体的观点、思想等均会表现或隐含在文本内容中，可以通过对文本内容的挖掘来判断交互的深度水平。本研究认为，交互内容维度可以通过讨论文本的话题特征、语言特征、情感特征和意义特征四个方面进行评价。首先以单条观点为意义单元进行分析，进而基于统计结果判断个体、小组和群体的交互内容深度。1）话题特征：主要判断观点与讨论问题的相关性，是评判交互内容质量的最基础的指标。相关性低表明观点偏离主题，视为无意义发帖。2）语言特征：主要判断观点的可读性，即观点易于阅读和理解的程度。从字词句难度等语言特征的角度评判观点表达是否易于理解，可读性差的帖子也视为无意义发帖。3）情感特征：主要判断观点中所隐含的情感类型，一般分为积极、消极和中性三类。其中，积极情感指文本中隐藏着期待、愉快、放松、自信、满足、兴奋等正向情绪；消极情感指文本中隐含着焦虑、无助、羞愧、紧张、挫败、沮丧、愤怒、厌倦、失望、悲伤等负向情绪；中性情感指文本中隐藏着专注、好奇等中性情绪（林铭炜等, 2024）。4）意义特征：主要判断讨论文本中的信息内容在深度交互中所起的作用，包括作用类型与层次。讨论过程中基于文本的交流活动处于教学交互层次塔中的信息交互层（陈丽, 2004），发帖中隐含的信息意义对于促进深度交互起着不同的作用，可以划分为认知、社会、教学三类（李彤彤等, 2023）。其中，认知意义是发帖所反映的对讨论主题或内容的认知思考程度，是判断发言质量或深度的直接依据，是在线讨论认知目标达成的最关键要素（Kozan & Caskurlu, 2018）；社会意义是发帖所具有的促进社会联系、增强凝聚力和归属感的作用；教学意义是指发帖所隐含的对讨论交互过程进行的设计、组织、促进和指导等作用（Garrison & Arbaugh, 2007）。需要特别说明的是，此处的教学意义和社会意义都是微观层面发帖内容所隐含的信息意义，而且具有教学和社会意义的发帖对于促进学习者的认知深度有着显著的正向影响（卢国庆等, 2021; 张屹等, 2019）。仅靠认知单一要素难以维持高质量的讨论，只有当教学、社会、认知等各要素都达到较高水平时，深度交互才能发生（Garrison et al., 2010）。因此，可以通过帖子内容所隐含的教学意义、社会意义、认知意义的类型与层次水平来刻画帖子文本的意义特征。

（四）交互文本编码体系

在交互内容维度的评价上，文本情感特征和意义特征的识别与评判是以文本编码体系为依据，采用机器学习或深度学习算法进行文本挖掘来实现的。因此，可信度较高的编码体系至关重要。本研究基于如前所述的交互深度评价维度，结合已有的编码框架，经理论论证、实践观察、专家咨询，构建了如表2所示的编码体系。在意义特征中，最为直接体现交互水平的是认知意义。参考引用最为广泛的交互分析模型（Interaction Analysis Model，IAM）（Gunawardena et al., 1997），本研究将认知意义特征按认知水平从低到高分为共享、分析、协商、整合和反思五个层次，并将共享和分析归为低层次认知，协商、整合和反思归为高层次认知。高层次发言的数量越多代表学习者的反思程度和知识建构水平越高，交互深度也越深。教学意义和社会意义是反映交互深度的间接特征，以其对应的帖子数量多少来反映相应交互水平，例如某学习者教学意义类发帖多，则表明该学习者具有更高的组织管理能力，起到类似助学者的作用，其教学意义水平则相对较高。参考探究社区理论，将教学意义维度编码为促进交流、设计组织和直接指导三类；社会意义维度编码为凝聚和互助两类（Garrison & Akyol, 2013）。需要特别说明的是，一条帖子可能具备三种意义中的一种或多种类型，不是所有帖子都具备三种意义类型。情感特征编码依据文本中所表现出来的情绪类型将其分为积极、中性和消极三类，而且一般认为积极的情绪对交互的促进效果更好。

表2 意义特征和情感特征分析编码

四、

交互深度智能化评价算法设计

（一）基于自动统计计算的交互行为维度评价算法

交互行为维度的数据大多是频次、时间等结构化数据，算法上采用统计计算来实现，针对个体和群体分别计算。

第一，交互频度计算。个体维度上主要统计个体发言数量和发言贡献，群体维度上主要统计小组或群体内参与人数、发言数量、人均发帖等指标。其中，参与人数指某个时间周期内某个群体中的发言人数；发言数量指个体或群体在某个时间周期内发言累计条数；人均发帖指某个时间周期内某讨论群体的人均发帖条数；发言贡献指个体为其所在群体的发言所做的贡献，用某个时间周期内该个体在某群体的发言条数占整个讨论群体总发言条数的比例来衡量。

第二，交互持续度计算。交互持续度主要通过讨论的持续时间、发言间隔、响应时间来刻画，基于平台所记录的每条帖子的发言时间进行计算。持续时间指个体或群体参与某时间周期内讨论的实际时长；发言间隔指两条帖子之间的时间间隔平均值；响应时间指发布讨论问题的时间与成员首次发帖回应时间之间的时间间隔。

第三，交互关联度计算。交互关联度主要用于测算参与者互动所建构的社会网络特征，由于个体和群体在社会网络中所展现的属性和侧重点有所不同，因此研究选择网络密度作为群体交互关联度的测算指标，选取中介中心度和点度中心度测算个体的交互关联度。

网络密度是衡量网络中节点间连接紧凑程度的指标，指特定网络内实际存在的连接数与潜在的最大连接数的比率，计算公式为：

式中，N表示当前社会网络所含节点数，即群体学习者数量；L指实际存在的关系（边）的数量，即成员间的互动次数。

点度中心度指网络中某节点连接的其他节点的数量，反映了该节点与其他节点连接的紧密程度，由出度和入度来决定。出度代表一个成员评论他人的数目，入度代表他人评论该成员的数目。本研究采用斯坦利•沃瑟曼（Wasserman, S.）和凯瑟琳•福斯特（Faust, K.）（1994, p.180）提出的标准化度量方法，即用现有的点度中心度与该节点可能的最大连接数的比率来计算。公式如下：

式中，是点vi的入度，即网络中指向该节点的节点数量；是点vi的出度，即该节点所指向的其他节点的数量；是点度中心度，n表示网络中的节点总数，即讨论群体的总人数。

中介中心度用于衡量一个节点在网络中能够连接其他节点对的能力，能够反映出该节点的桥梁作用和影响力，可以通过计算该节点出现在其他两个节点对最短路径上的次数得出。本研究计算相对中介中心度，即绝对中介中心度除以最大中介中心度，公式如下：

式中，DB(Si)指节点i的绝对中介中心度；bjk表示节点j到节点k的最短路径数量；bjk(i)表示这些路径中经过节点i的数量；CRBi表示节点i的相对中介中心度，n表示网络中的节点总数，即讨论群体总人数。

（二）基于人工智能的交互内容维度评价算法

交互内容维度的数据就是学习者发帖的文本内容，其评价采用文本挖掘技术实现。首先以单条发帖为意义单元进行评价，进而基于统计计算来分析个体或群体的交互状态。其中，话题特征相关性的定量判定采用向量空间模型与余弦相似度算法；语言特征的可读性评估采用基于多层级语言特征融合和BERT的文本可读性分级模型（MLF-BERT）实现；情感特征和意义特征的分析，采用机器学习、深度学习、大语言模型算法进行自动文本分类来实现。

1. 话题特征的相关性评价：余弦相似度算法

本研究参考刘金岭和钱升华（2021, pp.52-53）提出的文本相似度计算方法，以向量在方向上的相似度表示学习者发帖与讨论问题之间的相关程度，利用向量空间模型以及余弦相似度进行计算。向量空间模型的核心在于将文本映射到向量空间中，其中每段文本被表示为一个向量，利用这些向量之间的夹角余弦值来量化文本间的相似性。通过计算向量空间中代表讨论问题和学习者发帖的两向量间夹角的余弦值，来量化两段文本的相似程度。两向量方向越接近，其夹角度数越小，余弦值越高，代表文本相似度越高。余弦值为0—1之间的小数，通常通过计算向量内积得出。计算公式如下：

式中，Sim(Di,Dj)代表向量内积；Di和Dj分别代表讨论问题向量和学习者发言向量；tik和tjk分别代表两个向量中第k个词项的权重值；θ代表讨论问题向量与学习者发言向量夹角度数。

本研究采用余弦值作为该条发言在话题相关性维度的得分，而个体、小组或群体的相关性评价则以帖子的相关性平均分进行计算。

2. 语言特征的可读性评价：MLF-BERT算法

可读性一般指文本阅读的难易程度（陈洁, 2013）。已有研究提出了融合多层级语言特征（Multi-level Linguistic feature Fusion，MLF）的BERT模型，通过对文本难度等级的分类处理来预测文本的可读性水平，模型准确率达94.2%（谭可人等, 2024）。本研究借鉴此模型进行可读性评价，该模型采用深度学习架构，综合考虑汉字、词汇以及语法难度等多层次语言特征，其算法结构如图2所示。

图2 MLF-BERT模型架构

第一，特征层：言语等级特征抽取。模型根据《国际中文教育中文水平等级标准》（以下简称《标准》）中的中文难度等级大纲，对文本中的汉字、词汇和语法进行难度评级，分别构建特征向量。一是汉字等级特征抽取，通过算法自动遍历文本中的每个汉字，依据《标准》中的汉字难度等级大纲来匹配相应的难度等级，为每个汉字赋予难度等级值；二是词汇等级特征抽取，通过分词算法和匹配算法来实现，将每个分词后的词汇与《标准》中的词汇难度等级大纲进行匹配，为每一个词赋予难度等级值；三是语法等级特征抽取，使用正则表达式和依存约束规则来识别文本中的语法点，依据《标准》中的语法难度等级大纲，为每一个语法点赋予难度等级值。依据匹配的结构，分别构建字、词和语法的难度等级特征向量。

第二，融合层：言语等级与深度语义特征融合。基于多层级语言特征融合策略，将抽取的语言等级特征与BERT模型的深度语义特征进行融合，在嵌入层融合汉字和词汇特征，在自注意力层融合语法特征，使得模型兼顾文本的表层语言特征和深层语义信息。

第三，输出层：难度等级输出。通过softmax( )函数输出文本在各个难度等级上的概率分布，选择概率最高的等级，作为预测文本的最终难度等级，共1—6六个难度等级，难度等级越高，可读性越低。这是单条帖子的可读性得分，而个体、小组或群体的可读性评价则以帖子的可读性平均分进行计算。

3. 情感特征和意义特征：基于机器学习、深度学习、大语言模型的文本分类算法

情感特征和意义特征的判定采用文本分类算法来实现，算法的训练过程包括数据采集与标注、文本预处理与向量化、模型训练与选择三个阶段，我们基于机器学习、深度学习以及大语言模型算法训练了相应的分类模型。

第一，数据采集与标注。本研究数据主要来源于中国大学MOOC、学习通平台的课程讨论区，采用Python数据采集程序共获取22,362条在线讨论文本数据，其中来自中国大学MOOC的有14,235条，学习通平台有8,127条。本研究将单条帖子作为分析单元进行编码，基于所构建的编码表，借助课题组自主构建的标注系统，由两位非常熟悉编码规则的研究者背对背进行人工标注。对于编码结果不一致或无法分类的数据通过讨论确认其所属类别，提升标注准确性，这对于保障算法的准确率至关重要。标注完成后，利用SPSS软件对编码结果进行一致性分析，得到Kappa系数大于0.7，表明编码结果基本一致。需要说明的是，对于情感特征，同一条帖子只具备三类属性中的一种；而对于意义特征，同一条帖子可能具备认知、社会、教学意义中的一种或多种属性。标注得到的情感特征数据集含文本22,362条，意义特征数据集中含认知意义文本12,247条，教学意义文本7,876条，社会意义文本4,565条。

第二，文本预处理与向量化。文本预处理是指过滤掉低质量和重复的文本数据，降低数据噪声，为建模做准备，主要工作包括数据清洗、去停用词等。本研究通过Python编程环境使用哈尔滨工业大学相关团队构建的停用词表完成去停用词任务。经过预处理后，得到情感特征数据集19,303条，意义特征数据集共22,716条（其中，认知意义文本10,443条，教学意义文本7,751条，社会意义文本4,522条）。文本向量化是自然语言处理中的关键步骤，它涉及将文本表示成一系列能够表达文本语义的数值向量，以便于计算机处理和理解。为解决文本缺乏上下文信息导致的特征不足问题，本研究从字和词层面进行特征提取。利用Python环境下的gensim库，基于Word2Vec神经网络模型实施了向量训练，成功构建了维度为300的字向量和词向量模型。

第三，基于机器学习、深度学习、大语言模型的模型训练。由于需要通过实验测试来评估学习模型的泛化误差，因此，在实际训练过程中，将文本数据集划分为训练集和测试集，其中训练集用于对交互文本分类模型的训练评估，测试集用来测试分类模型对新样本的判别能力，以测试集上的测试误差作为泛化误差的近似。本研究采用分层采样的方法，将每个类别数据按照训练集和测试集7∶3的比例划分，利用Python编写算法并进行模型训练。一是机器学习算法。本研究选取了支持向量机（SVM）、朴素贝叶斯（NB）、K-近邻（KNN）和决策树（DT）这几种常用的、表现优异的机器学习算法进行了模型训练。二是深度学习算法。本研究选取了长短时记忆神经网络（LSTM）、深度卷积神经网络（DCNN），以及本团队改进设计的“双向长短时记忆神经网络（Bi-LSTM）+自注意力机制（Self-Attention）”深度学习算法进行了模型训练。深度学习算法执行文本分类任务的重点在于自动提取文本特征，这些特征反映了文本的内容、语义和情感倾向等，对于分类任务至关重要。不同深度学习算法最主要的区别在于特征提取方法的差异，相当于不同的特征提取器，它们以不同的方式学习和表示文本数据。LSTM算法通过结合当前输入和上一个时间步长（即词序）的信息来更新其内部状态，从而有效地捕捉文本序列中的依赖关系。DCNN算法则主要利用卷积操作和层次化的网络结构来捕捉文本特征，通过堆叠多个卷积层和池化层，逐层提取出文本中从低级到高级的特征表示。本团队改进的“Bi-LSTM+Self-Attention”算法则结合了多种方法和技术的优势，在利用知识图谱补充话语知识背景信息的基础上，通过前向LSTM和后向LSTM的组合，同时捕捉文本序列中的前向和后向上下文信息，在每个时间步长上同时考虑序列两端的信息，从而更全面地理解文本的上下文。Self-Attention机制则关注句子内部元素间的关联，通过计算序列中每个元素（token）与所有其他元素的相似性，得到该位置的注意力权重，使得模型能够依此聚焦于序列中的关键信息。三是大语言模型。大语言模型本质上是一种深度学习算法，其核心优势在于能够通过多次迭代来优化模型，精准捕捉文本中长距离的依赖关系和上下文信息，从而能够对文本含义进行更为深刻的解读和分析。本研究基于文心一言大语言模型，运用ERNIE 3.0的框架结构，借助EasyDL服务平台训练了相应的算法模型，通过其模型迭代方式，多次调整训练大语言模型，提高模型的准确率。

第四，模型效果评估与选择。本研究采用准确率（Accuracy）作为文本分类模型评估的标准，其是指模型预测正确的样本数占总样本数的比例，各模型训练的准确率如表3所示。可见，“双向长短时记忆神经网络（Bi-LSTM）+自注意力机制（Self-Attention）”深度学习算法表现最佳，因此选择此算法作为意义特征和情感特征的分类识别算法。

表3 情感特征与意义特征文本分类模型性能

通过算法可以自动对发帖进行分类，以相应类型对应的表2中编码对应的数值进行赋分，例如若归类为认知意义维度的共享类发帖，其对应编码“C1”，那么其认知意义维度得分为1分，其余类型依此类推。而对于个体和群体来说，则以其各意义维度上得分的平均分来判断其相对水平。

五、

交互深度智能化评价工具的实践应用

本研究基于上述算法开发了智能化评价工具并嵌入团队前期开发的在线讨论平台，开展了实践应用，在单条帖子、个体、小组或群体层次的评价功能与效果如下。

第一，针对单条帖子，该工具能够实现对其话题特征、语言特征、情感特征、意义特征实时评价与可视化呈现（如图3所示），基于此还可以进一步比较不同帖子的交互质量，也可用于筛选不同维度上的精华帖，如认知意义精华帖等。

图3 单条帖子交互深度评价结果

第二，针对个体，该工具可以实时统计个体在某次讨论或某时间段内的交互深度状态。交互行为方面，通过统计得出个体在当前讨论中的交互频度（如发言条数等）、交互持续度（如参与时长等）、交互关联度（个体在社交网络中的点度中心度、中介中心度等）。交互内容方面，则实时统计出个体发帖在各个维度上的平均值，以此表征个体在各个维度上的表现，其评价结果部分示例如图4所示。

图4 个体交互深度评价结果示例

第三，针对小组或群体，该工具可以实时统计小组在某次讨论或某时间段内的交互深度状态。交互行为方面，实时统计小组发帖总量、讨论持续时长、响应时间、网络密度等；交互内容方面，可统计小组内所有发帖相应维度得分的平均值。同时，通过个体或小组之间的比较，可以发现不同个体或小组在不同维度上的相对水平、优势及劣势等，这些都可以为教师的个性化干预提供依据。针对小组或班级群体的评价结果部分示例如图5所示。

图5 小组交互深度评价结果示例

六、

总结

评价难的困境已经成为在线讨论研究与实践发展的瓶颈。随着人工智能技术的发展，智能化评价越来越必要且可行。本研究针对“如何科学有效地评价交互深度”的问题，构建了评价模型，设计了相应算法，开发了相应工具，其中的创新性体现在三个方面：1）以临场感为依据确立相应评价维度与指标，综合考虑讨论过程中的多维要素，使得评价指向深度学习，符合以评促学（以讨论促进高阶思维）的目标；2）基于学习分析的逻辑构建评价模型，全面考量交互行为和交互内容等客观数据，使评价更为真实、客观；3）评价算法上基于智能化技术实现自动化评价，解决了人工评价难的问题，使得评价能够真正走向常态化实践。本研究评价对象是单条帖子、个体、小组、群体不同层次，能够实现分维度的相对评价和自动实时评价，为在线讨论活动的评价提供了科学可靠的方法。团队已自主开发平台并将相应算法嵌入实现，该评价方案能够帮助发现高质量帖子，以及甄别不同学习者的思维水平或不同小组的讨论氛围和表现，进而为教师有针对性地干预提供了有效参考。但由于数据源大多来自教育技术学相关的课程，数据的学科覆盖范围和数据量还有待进一步改进，模型的可迁移性还有待进一步验证。后续研究将关注抽样范围的扩大、数据量的扩充以及大语言模型的应用，进一步修正和完善模型，以更好地服务在线教学。

参考文献

陈蓓蕾, 张屹, 杨兵, 范福兰, 郭强, & 周平红. （2019）. 技术支持的教学交互策略促进交互深度研究. 中国电化教育（8）, 99-107.

陈洁. （2013）. 国内可读性研究概述. 黑龙江史志（9）, 212-213.

陈丽. （2004）. 远程学习的教学交互模型和教学交互层次塔. 中国远程教育（5）, 24-28, 78.

戴心来, & 刘聪聪. （2019）. 基于学习分析的虚拟学习社区深度交互研究. 现代远距离教育（5）, 51-58.

冯晓英, 刘月, & 吴怡君. （2018）. 学习者在线学习水平的学习分析模型研究——临场感学习分析模型构建与方法探索. 电化教育研究（7）, 40-48.

郭玉娟, & 陈丽. （2022）. 如何设计问题支架促进深度联通——基于问题支架类型与交互深度关系的研究. 中国远程教育（1）, 52-59, 93.

兰国帅, 钟秋菊, 吕彩杰, 宋亚婷, & 魏家财. （2018）. 探究社区量表中文版的编制——基于探索性和验证性因素分析. 开放教育研究（3）, 68-76.

李彤彤, 周彦丽, 边雨迎, 李国涛, & 郭栩宁. （2023）. 面向有效交互的在线教育视频课程弹幕智能实时管理机制设计. 电化教育研究（1）, 61-69.

梁云真, 朱珂, & 赵呈领. （2017）. 协作问题解决学习活动促进交互深度的实证研究. 电化教育研究（10）, 87-92, 99.

林铭炜, 许江松, 林佳胤, 刘健, & 徐泽水. （2024）. 面向在线教育的学习者情感识别综述. 控制与决策（4）, 1057-1074.

刘金岭, & 钱升华. （2021）. 文本数据挖掘与Python应用. 清华大学出版社.

刘君玲, 张文兰, & 刘斌. （2020）. 在线协作交互文本编码体系的设计与应用——基于情绪交互视角的研究. 电化教育研究（6）, 53-59.

刘清堂, 张妮, & 朱姣姣. （2018）. 教师工作坊中协作知识建构的社会网络分析. 中国远程教育（11）, 61-69, 80.

刘三女牙, 彭晛, 刘智, 孙建文, & 刘海. （2017）. 面向MOOC课程评论的学习者话题挖掘研究. 电化教育研究（10）, 30-36.

卢国庆, 刘清堂, 郑清, & 谢魁. （2021）. 智能教室中环境感知及自我效能感对个体认知投入的影响研究. 远程教育杂志（3）, 84-93.

马志强. （2017）. 在线学习评价研究与发展. 中国社会科学出版社.

马志强, 郭文欣, & 王萌. （2022）. 面向协作知识建构会话内容的智能挖掘分析. 现代远距离教育（1）, 3-13.

彭敏军, 陆新生, & 刘引红. （2011）. 基于数量和质量的在线学习参与度考量方法研究. 现代教育技术（1）, 103-106.

谭可人, 兰韵诗, 张杨, & 丁安琪. （2024）. 基于多层级语言特征融合的中文文本可读性分级模型. 中文信息学报（5）, 41-52.

王丽英, & 张义兵. （2020）. 融合知识建构和机器学习的观点质量评价. 现代教育技术（11）, 62-69.

吴祥恩, & 陈晓慧. （2017）. 混合学习视角下在线临场感教学模型研究. 中国电化教育（8）, 66-73.

闫寒冰, 段春雨, & 王文娇. （2018）. 在线讨论质量分析工具的研发与实效验证. 现代远程教育研究（1）, 88-97, 112.

张屹, 郝琪, 陈蓓蕾, 于海恩, 范福兰, & 陈珍. （2019）. 智慧教室环境下大学生课堂学习投入度及影响因素研究——以“教育技术学研究方法课”为例. 中国电化教育（1）, 106-115.

甄园宜, & 郑兰琴. （2020）. 基于深度神经网络的在线协作学习交互文本分类方法. 现代远程教育研究（3）, 104-112.

郑娅峰, 徐唱, & 李艳燕. （2017）. 计算机支持的协作学习分析模型及可视化研究. 电化教育研究（4）, 47-52.

郑燕林, & 柳海民. （2013）. 论网络教师在师生互动中的印象管理. 现代远程教育研究（3）, 34-39, 71.

衷克定. （2005）. 基于人格结构理论的在线讨论质量评价之研究. 开放教育研究（4）, 74-78.

Almatrafi, O., Johri, A., & Rangwala, H. (2018). Needle in a haystack: Identifying learner posts that require urgent response in MOOC discussion forums. Computers & Education(118), 1-9.

Anderson, T., Rourke, L., Garrison, R., & Archer, W. (2001). Assessing teaching presence in a computer conferencing context. Journal of Asynchronous Learning Networks, 5(2), 2-17.

Arbaugh, J. B., Cleveland-Innes, M., Diaz, S. R., Garrison, D. R., Ice, P., Richardson, J. C., & Swan, K. P. (2008). Developing a community of inquiry instrument: Testing a measure of the community of inquiry framework using a multi-institutional sample. The Internet and Higher Education, 11(3-4), 133-136.

Cesareni, D., Cacciamani, S., & Fujita, N. (2016). Role taking and knowledge building in a blended university course. International Journal of Computer Supported Collaborative Learning, 11(1), 9-39.

Chen, H., Tan, E., Lee, Y., Praharaj, S., Specht, M., & Zhao, G. (2020). Developing AI into explanatory supporting models: An explanation-visualized deep learning prototype. ICLS 2020 Proceedings, 1133-1140.

Cleveland-Innes, M., & Campbell, P. (2012). Emotional presence, learning, and the online learning environment. International Review of Research in Open & Distance Learning, 13(4), 269-292.

Derks, D., Fischer, A. H., & Bos, A. E. R. (2008). The role of emotion in computer-mediated communication: A review. Computers in Human Behavior, 24(3), 766-785.

Duan, L. G., Di, P., & Li, A. P. (2014). A new naive Bayes text classification algorithm. TELKOMNIKA: Indonesian Journal of Electrical Engineering, 12(2), 947-952.

Fiacco, J., & Rosé, C. (2018). Towards domain general detection of transactive knowledge building behavior. In Proceedings of the Fifth Annual ACM Conference on Learning at Scale (L@S’18) (pp. 1-11). Association for Computing Machinery.

Garrison, D. R., & Akyol, Z. (2013). The community of inquiry theoretical framework. In D. Seaman, & J. G. Gagliardi (Eds.), Handbook of distance education (pp. 104-120). Routledge.

Garrison, D. R., Anderson, T., & Archer, W. (1999). Critical inquiry in a text-based environment: Computer conferencing in higher education. The Internet and Higher Education, 2(2-3), 87-105.

Garrison, D. R., & Arbaugh, J. B. (2007). Researching the community of inquiry framework: Review, issues, and future directions. The Internet and Higher Education, 10(3), 157-172.

Garrison, D. R., & Cleveland-Innes, M. (2005). Facilitating cognitive presence in online learning: Interaction is not enough. American Journal of Distance Education, 19(3), 133-148.

Garrison, D. R., Cleveland-Innes, M., & Fung, T. S. (2010). Exploring causal relationships among teaching, cognitive and social presence: Student perceptions of the community of inquiry framework. The Internet and Higher Education, 13(1-2), 31-36.

Gunawardena, C. N., Lowe, C. A., & Anderson, T. (1997). Analysis of a global online debate and the development of an interaction analysis model for examining social construction of knowledge in computer conferencing. Journal of Educational Computing Research, 17(4), 397-431.

Hilliard, L. P., & Stewart, M. K. (2019). Time well spent: Creating a community of inquiry in blended first-year writing courses. The Internet and Higher Education, 41, 11-24.

Jonassen, D. H. (1996). Computers in the classroom: Mindtools for critical thinking. Prentice-Hall, Inc.

Kent, C., Laslo, E., & Rafaeli, S. (2016). Interactivity in online discussions and learning outcomes. Computers & Education, 97, 116-128.

Kozan, K., & Caskurlu, S. (2018). On the Nth presence for the community of inquiry framework. Computers & Education, 122, 104-118.

Levin, J. A., Kim, H., & Riel, M. M. (1990). Analyzing instructional interactions on electronic message networks. In L. M. Harasim (Ed.), Online education: Perspectives on a new environment (pp. 185-214). Greenwood Publishing Group Inc.

Liu, J., Gao, Z., & Zhang, P. (2020). Exploring how topic characteristics influence online discussion quality. Proceedings of the Association for Information Science and Technology, 57(1), e376.

Murphy, E. (2004). An instrument to support thinking critically about critical thinking in online asynchronous discussions. Australasian Journal of Educational Technology, 20(3), 295-315.

Pillutla, V. S., Tawfik, A. A., & Giabbanelli, P. J. (2020). Detecting the depth and progression of learning in massive open online courses by mining discussion data. Technology, Knowledge and Learning, 25, 881-898.

Redmond, P., & Lock, J. V. (2006). A flexible framework for online collaborative learning. The Internet and Higher Education, 9(4), 267-276.

Shea, P., Hayes, S., Vickers, J., Gozza-Cohen, M., Uzuner, S., Mehta, R., Valchova, A., & Rangan, P. (2010). A re-examination of the community of inquiry framework: Social network and content analysis. The Internet and Higher Education, 13(1-2), 10-21.

Wasserman, S., & Faust, K. (1994). Social network analysis: Methods and applications. Cambridge University Press.

Zheng, L. (2017). A knowledge map approach to analyzing knowledge elaboration in collaborative learning. In L. Zheng (Ed.), Knowledge building and regulation in computer-supported collaborative learning (pp. 19-31). Springer.

Zhou, P., Shi, W., Tian, J., Qi, Z., Li, B., Hao, H., & Xu, B. (2016). Attention-based bidirectional long short-term memory networks for relation classification. In K. Erk, & N. A. Smith (Eds.), Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) (pp. 207-212). Association for Computational Linguistics.

Resolving the Evaluation Dilemma of Online Discussions: Exploring Intelligent Evaluation Methods of Interaction Depth

Li Tongtong, Li Guotao, Liu Jinyou, Ma Mengchun, Bian Yuying, Zhou Yanli, Guo Xuning

Abstract:How to effectively evaluate and promote interaction depth is the key to improving the quality of online asynchronous discussion. However, the current evaluation of the depth of interaction lacks systematic studies and operational evaluation methods or tools. Therefore, focusing on the issue of “how to evaluate the depth of interaction scientifically and effectively”, this research builds an evaluation model suitable for intelligent evaluation based on the online presence framework and three-dimensional goals of cognition, ability and emotion. With text mining as the main technical support, it integrates various methods such as statistical computing, machine learning, deep learning and large language model. The statistical calculation algorithm of interaction frequency, duration and correlation in the interactive behavior dimension is designed, and the intelligent calculation algorithm of text language readability, topic correlation, emotional characteristics and meaning characteristics in the interactive content dimension is designed, which can realize real-time, automatic, and relative evaluation of the performance of a single post, individuals, and groups in different dimensions. The evaluation scheme proposed by the research comprehensively considers multi-dimensional indicators, and realizes automatic evaluation of interaction depth based on real-time mining and discussion of objective data by intelligent technology, so that the evaluation goal is oriented to deep learning and normalized practice, providing effective and feasible support for the optimization of online discussion activities.

Keywords:online discussion; interaction depth; intelligent evaluation; sense of presence

作者简介

李彤彤，天津师范大学教育学部教育技术系副主任、副教授（通讯作者：sdltt@126.com 天津 300387）。

李国涛，天津师范大学教育学部硕士研究生（天津 300387）。

刘金佑，天津师范大学教育学部硕士研究生（天津 300387）。

马梦纯，天津师范大学教育学部硕士研究生（天津 300387）。

边雨迎，天津师范大学教育学部硕士研究生（天津 300387）。

周彦丽，吕梁市水西小学校教师（吕梁 033000）。

郭栩宁，北海市卫生学校教师（北海 536007）。

基金项目

国家自然科学基金2022年度青年项目“在线异步讨论中交互深度的智能评价与人机协同促进机制研究”（项目编号：62207019）

责任编辑：单玲陈凤英

期刊简介

《中国远程教育》创刊于1981年，是教育部主管、国家开放大学主办的综合性教育理论学术期刊，是中文社会科学引文索引（CSSCI）来源期刊、全国中文核心期刊、中国人文社会科学期刊AMI综合评价（A刊）核心期刊、中国科学评价研究中心（RCCSE）核心期刊、中国期刊方阵双效期刊、人大复印报刊资料重要转载来源期刊，面向国内外公开发行。

本刊关注重大教育理论与政策，推动科技赋能教育，反映国际学术前沿，聚焦本土教育改革，注重学术研究规范，提倡教育原创研究。

地址

北京市海淀区复兴路75号

邮编

电话

010-68182514

电邮

zzs@ouchn.edu.cn

网址

cjde.ouchn.edu.cn

来源丨中国远程教育微刊

声明：转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与我们联系，我们将及时更正、删除，谢谢。