特色案例展示（51）丨基于大数据的企业培训资源智能化推荐体系构建|中国远程教育|大数据|教育|智能化

2021年，为推动新时代高校继续教育高质量发展，提升继续教育的公信力、影响力，展示优秀成果，传播成功经验，推动行业“十四五”发展开好局、起好步，在总结往年经验的基础上，《中国远程教育》杂志社再次推出“中国高校继续教育优秀成果及特色案例”征集活动，遴选出67项成果。为更好地发挥这些优秀成果及特色案例的优秀示范和借鉴引领作用，特以《中国远程教育》杂志增刊形式出版。

增刊汇集了中国现代远程教育试点高校、普通高等院校、开放大学（广播电视大学）、职业院校和行业企业在继续教育领域改革创新的优秀成果、特色案例、理论成果，凝聚了继续教育同仁的智慧和心血，是继续教育领域珍贵的年度成果报告。期待以此为继续教育、在线教育行业树立标杆、提供参照，助力继续教育和在线教育高质量发展。

基于大数据的企业培训资源智能化推荐体系构建

作者：刘树军刘庆芳杜冬梅

【摘要】在远程教育的3.0时代，个性化、智能化学习成为发展趋势和研究热点。本文聚焦员工个性化学习，利用大数据的分析方法，设计了一套企业培训资源智能化推荐体系，有效解决了员工反映的培训缺乏针对性、学习体验不好等问题，避免了信息过载和信息迷航的困扰，促进了员工从被动培训向主动学习的转变。

【关键词】大数据；企业培训；智能化推荐；推荐体系

企业教育培训是企业人力资源管理链条中非常重要的一环，是推动人才发展、促进企业在新时期下进行战略转型的重要手段。进入大数据时代，企业教育培训也走向了新的发展阶段，以用户为中心、以数据为导向的精准化、数字化、智能化学习将成为未来的发展趋势。纵观互联网+教育培训的演进历史，远程教育培训经历了3次重大变革。远程培训的1.0时代是数字化教育时代，也就是互联网知识在线化，课程、课件、知识、资源都可以在网上观看；远程培训的2.0时代是泛在化教育时代，也就是移动学习时代，人们可以随时、随地、随意地学习，不在受时间和空间的限制；远程培训的3.0时代是个性化教育时代，是利用大数据、人工智能、云计算等新技术实现的精准个性化教育，是从千人一面到千人千面。

中国邮政网络学院（以下简称中邮网院）自2010年7月开通上线以来，面向全员、覆盖全网，卓有成效地开展了大规模教育培训活动，截至2021年6月，中邮网院年访问量突破6000万人次，学习时长超过1300万小时，参加考试300万人次，有效支撑了邮政企业战略转型发展和员工个人素质的提升。但对标先进，中邮网院在“个性化、智能化”教育培训方面还存在很大的差距，因此，紧跟互联网发展浪潮，借助大数据和人工智能技术，深入挖掘员工学习行为和规律特征，构建用户画像模型，形成“千人千面”的学习场景，以更好地实现为企业和员工服务的目标。

一、

个性化推荐服务

根据不同的推荐算法，个性化推荐服务主要分为：基于协同过滤的推荐、基于内容的推荐以及混合式的推荐（刘静，等，2016）。推荐算法的核心是“物以类聚”和“人以群分”，物以类聚通过基于内容属性的相似性推荐来实现，人以群分通过基于用户行为的协同过滤来实现。目前，个性化推荐技术主要应用在电子商务领域，现在如京东、头条、当当网等几乎所有大型的电子商务网站，都不同程度地使用了各种形式的推荐系统，推荐对象包括图书、音乐、文章、商品、电影、视频等各类产品。个性化推荐技术在商务网站中的应用已经很成熟，但在教育培训中的应用还不多。

二、

基于大数据的企业培训资源智能化推荐模型

学习资源智能化推荐的实质是学习场景下用户和内容更有效率的连接，根据用户历史的浏览记录、兴趣爱好、学习行为或者用户的相似性为用户进行个性化的信息推荐服务，用户、内容和算法是个性化推荐的三矩阵。

（一）岗位能力分析

通过调研以及分析岗位职责要求，员工的岗位能力分成三类：第一类为知识技能类，主要为胜任岗位需要满足的业务知识类、实操类、技能类能力；第二类为资格证书，为取得该岗位任职资格需要掌握的职业鉴定能力和知识；第三类为关键能力，主要为管理类、职业素养类等能力。课程推荐结果应覆盖上述三类能力全面性的要求，同时也要满足不同工龄员工对不同类型能力的差异化需求。工龄较短的员工对技能类、资格类能力课程需求大于综合类，工龄较长的员工则对综合类能力对应课程需求大于前两类，工龄长短可以通过参数设置。

（二）基于岗位的课程推荐方法

基于岗位能力分解的推荐模型，综合利用多种方法实现课程推荐。课程推荐的场景主要有两个：首页猜你喜欢和课程学习分类推荐。其中，首页猜你喜欢利用基于岗位的协同过滤方法（孙歆，等，2012），满足学员对岗位全面能力学习的需要；课程学习分类推荐利用基于内容的推荐方法，为学员推荐该课程对应分类下的课程，满足学员对该知识点学习的需要。

本文主要介绍基于岗位协同过滤的方法，基于岗位协同过滤的核心思想是把指定岗位所有员工评分较高的课程推荐给该岗位的所有员工，同时综合考虑员工工龄和课件时效性等因素，满足岗位能力覆盖的全面性，满足课程推荐结果的多样性和新颖性。

表1 岗位能力要求与资源一级分类表

（三）评分矩阵数据筛选

在筛选阶段，利用员工的岗位属性，对员工和课程之间的评分矩阵（学习记录）进行筛选和过滤，生产岗位评分矩阵。对于某岗位，为其生成的岗位评分矩阵只保留属于该岗位员工的评分项（学习记录），其余的评分项被过滤掉。不同岗位的评分矩阵不同，岗位的评分矩阵反映了该岗位员工群体对课程的偏好程度。

（四）课程资源召回

召回策略有两种，一是对于某个岗位，以该岗位人员在中邮网院近3年学习过的课程为召回对象。二是对于某个岗位，以该岗位人员在中邮网院近3年学习过的课程对应的所有课程分类的课程作为召回对象。在召回阶段，从全部的课程资源中选取较小范围的候选集，即选取第一种召回策略，本研究根据岗位评分矩阵生成对应岗位的课程列表候选集，不同岗位对应的候选集不同。

（五）候选数据排序

在排序阶段，主要对候选集中的课程进行排序，排名越靠前意味着该课程越受欢迎，排序的依据包括学习人次、学习时长、点赞和收藏等。为了消除不同数据项之间单位和概念的差别，排序前先对各项数据进行归一化操作。

为了保证推荐的准确性，把该岗位员工偏好的课程推荐给学员，在冷启动阶段，将历史评分矩阵（学员的历史学习记录）作为课程的排序依据，评分项包括学习人次c、学习时长s，归一化后的学习人次、学习时长为c*和s*，其计算公式为：

课程的评分计算公式为：

其中Wc和Ws为学习人次、学习时长的权重，可以通过参数设置，得分高的课程优先推荐给学员。

当系统运行一段时间后，推荐系统积累了足够多的学习行为数据，包括学员从推荐结果中的点击次数dj、学习时长sc、点赞数量dz、收藏数量gz，归一化后的学习人次、学习时长、点赞数量、收藏数量dj*、sc*、dz*和gz*，其计算公式为：

课程评分新计算公式变为：

其中Wdj、Wsc、Wdz和Wgz为点击次数、学习时长、点赞和收藏的权重，分别设置为0.2、0.2、0.3和0.3。

为了使学员能有机会看到更多种类的课程，即提高推荐的多样性，在每个大类部分中均匀展示每个原子分类的课程。对于具体的原子分类，优先展示得分较高的课程，保证把该岗位员工偏好的课程推荐给用户，即保证准确性。

为了保证推荐结果具有一定的新颖性，使学员能一定概率看到不同的、惊喜的课程，本研究在每个大类的排序结果中，对已经有序的结果进行随机扰动，使得扰动后的结果总体上按照课程得分进行排序，局部出现的概率呈随机状。按照课程得分进行排序后的队列为L，随机扰动后的队列为L*，则随机扰动公式为：

其中，random（1,N）为1到N之间的随机数，N越大，扰动后的队列越随机，N越小，扰动后队列越有序，本研究中N为50。

（六）推荐单元选取

在选取阶段，以10门课程为一个推荐单元向学员进行展示。

表2 推荐单元内部的课程组成式例表

场景一的选取策略中，每个单元的10门课程从3大分类中选取。3个大类的队列记为A，B，C。每个大类又包含多个原子分类，第一大类下面的原子类队列记为a1、a2、a3⋯⋯第二类队列记为b1、b2、b3⋯⋯第三类队列记为c1、c2、c3⋯⋯

每个原子类下有多门课程，课程按照分数进行排序，如a1下属的课程记为a1(1)、a1(2)、a1(3)⋯⋯其中，a1(1)为该原子类下面得分最高的课程，其次为a1(2)，再次为a1(3)，以此类推，即score*a1(1)>score*a1(2)>score*a1(3)。

大类的课程队列排序由下属的原子分类课程归并排序组成，具体如下。第一大类队列A下属的课程排序为：a1(1)、a2(1)、a3(1)⋯⋯am(1)、a1(2)、a2(2)、a3(2)⋯⋯am(2)、a1(3)、a2(3)、a3(3)⋯⋯am(3)⋯⋯第二大类队列B下属的课程排序为：b1(1)、b2(1)、b3(1)⋯⋯bn(1)、b1(2)、b2(2)、b3(2)⋯⋯bn(2)、b1(3)、b2(3)、b3(3)⋯⋯bn(3)⋯⋯第三大类队列C下属的课程排序为：c1(1)、c2(1)、c3(1)⋯⋯cp(1)、c1(2)、c2(2)、c3(2)⋯⋯cp(2)、c1(3)、c2(3)、c3(3)⋯⋯cp(3)⋯⋯m、n、p分别为3个大类的下属的原子分类数量。

最终推荐单元的选取，以每单元10门课程为例，每单元中知识技能、岗位资格、关键能力大类的数量分别为：N1、N2、N3，学员工龄越长，则N1和N2越小，N3越大。

场景二的选取策略直接查询该课程所属的原子分类，然后获取该分类下的所有课程，再分成不同的单元推荐给学员。

（七）推荐模型评估

通过测算，推荐模型的准确率为67%，召回率为49%，利用JMeter5.3对系统推荐功能进行压力测试，每秒交易数TPS>=400次，页面平均响应时间<=0.05秒，CPU利用率均值<=60%，内存利用率均值<=20%，各项指标均高于设计值，完全符合生产要求。

三、

推荐总体架构

课程学习系统中的课程学习记录定期归集到课程推荐系统的OLAP数据仓库，经过数据统计和分析后，将分析结果同步到课程推荐系统的OLTP数据库，最后课程推荐应用服务按照分析后的结果将相应的课程推送给学员。系统总体架构图如图1所示。

图1 智能化推荐总体架构图

四、

创新点

智能化推荐算法模型和推荐系统功能是根据企业培训实际，完全自主研发，具有可扩展性强、数据实时更新、用户操作简单等特点，系统提供了多维度推荐场景，并与业务深度融合，实现了员工学习需求、岗位能力要求和资源内容之间的智能化匹配，真正实现了以数据为导向的智能化学习，使得培训从“千人一面”转变为“千人千面”，员工所学即所需，极大提升了培训学习的效能，为员工职业发展赋能。

五、

价值效益

项目以邮政业务板块代理金融专业支局（所）经理和综合柜员2个岗位为基础开展研究，覆盖人员6.7万人。智能化推荐系统的上线运行，一是有效解决了员工迫切反映的培训缺乏针对性、学习效率不高、学习体验不好等问题；二是员工和学习资源之间形成了有效的连接，在很大程度上避免了信息过载和信息迷航的困扰；三是优质资源直达员工，促进了员工从被动培训向主动学习的转变。通过开展满意度调研，员工对推荐内容的整体满意度达93.3%，系统的研发和上线为企业培训进行数字化转型做出了积极探索。

［参考文献］

刘静，熊才平，丁继红，等. 2016. 教育信息资源个性化推荐服务模式研究[J]. 中国远程教育（2）：5-9, 79.

孙歆，王永固，邱飞岳. 2012. 基于协同过滤技术的在线学习资源个性化推荐系统研究[J]. 中国远程教育（8）：78-82.

作者简介

刘树军，工程师；刘庆芳，高级工程师；杜冬梅，高级工程师。石家庄邮电职业技术学院中国邮政网络学院运行管理中心（050021）。

本文刊载于2021年11月30日出版的《中国远程教育》增刊。

精品悦读

学术精华