食品安全关系人民群众身体健康和生命安全,关系中华民族未来。以食品安全突发事件为研究对象,深入开展演化机理、检测技术和预警方法等方面的研究,能够帮助政府及时采取有利的措施,预防食品安全问题的再次发生,已经得到党和国家的高度重视。

数据科学是基于传统的数学、统计学的理论和方法,运用计算机技术进行大规模数据计算、分析和应用的一门学科。 随着社会信息化程度的提升与信息储存方式的变革,食品生产与消费的各个环节已经积累了海量异构的食品安全历史数据,且仍在源源不断地产生着新的食品安全大数据。 在大数据时代的背景下,大数据技术方法相比起传统的研究方法,在处理海量的食品安全数据时显得更加对口和有效。

已发表的科技论文是经过同行评议,且其主题被认为是隶属于该领域的论文。因此,从已发表的学术论文中识别并探测某一特定研究主题是被实践证明的可靠方法。基于此种假设,武汉理工大学中国应急管理研究中心的邵航、宋英华*和李墨潇*等人选取中国知网(CNKI)数据库中食品安全研究与数据科学存在交集的科技文献作为我国食品安全与数据科学交叉研究的样本数据集,运用科学计量学理论,主要使用科技文本挖掘软件Citespace对文献数据进行深度挖掘。本文将从所收集的文献数据的特征出发,开展本交叉研究的研究主体分析与研究主题分析,以期从文献数据空间中发现本领域重要的研究机构、期刊和作者,并进一步地发现本领域当前的研究热点与未来的发展趋势。

1数据与方法

1.1数据采集与预处理

本文所收集的数据全部来源于CNKI。考虑到文献题录数据的更新会有迟滞,本研究以2019年5月20日0时为截止时间,以“主题 = 食品安全 AND 数据”为检索条件,收集了1996年1月至2019年5月跨度约23 年的3 375 条文献数据,文献类型包括期刊论文、学位论文、会议论文和报纸图书等。文献数据以Refworks格式(包含文献类型、作者、作者单位、标题等主要科学计量字段)存储为UTF-8编码的.txt文件到本地路径备用。同时,使用Python爬取检索页面分年数据的完整信息,并写入Excel文件。

1.2科学计量学方法与科技文本挖掘软件

科学计量学是运用数学等定量方法对科学的整体及其各个方面进行定量化研究,以解释科学发展规律的一门新兴学科。传统的科学计量学研究方法主要有出版物统计、著者统计、引文分析、词频分析等。本研究使用的是Citespace软件的5.1.R8.SE.版本。

2结果与分析

2.1交叉研究的研究主体分析

  • 文献年代分布

文献累计量的分年统计及回归预测见图1,期刊论文、学位论文累计数量预测曲线的R2均达到99%以上,证明回归模型的拟合优度很高。曲线数值的增长具备某种指数型趋势,而此处依据泰勒公式原理,以多项式函数来近似计算指数函数值,通过设置预测点,可以推测:本领域期刊论文总量有望在2019年达到1 940 篇左右,在2020年达到2 340 篇左右;本领域学位论文总量有望在2019年达到1 810 篇左右,在2020年达到1 950 篇左右。在2007年以前,期刊论文的累计量高于学位论文的累计量,这表明1996—2007年交叉研究还处于讨论与积累的萌芽阶段,尚未形成较完备的学科形态;2007—2019年学位论文的累计量高于期刊论文的累计量,这表明从事交叉研究的人越来越多,交叉研究的热度在不断提高,社会的重视程度也在不断提高;预计2019年会成为期刊论文数量第二次超过学位论文数量的转折点,这将标志着交叉研究会逐步形成新的学科增长点,推动新一阶段的交叉研究发展。

  • 重要机构分布

使用CNKI数据库的“分组浏览-机构”功能,可以查询到当前学科领域中重要机构的信息(以发文量统计,列表机构最低发文量为14 篇)。由表1可知,发表论文30 篇及以上的机构有18 家,所发表的论文占全部3 375篇文献的26.93%,属于引领本领域研究的核心机构群体。在本领域发表论文的数量与该机构研究人员的数量、获得相关科研项目的数量密切相关。

  • 重要期刊与学位授予单位分布

使用Excel 2016软件的数据透视表功能,对所收集的3 375 条题录数据的“期刊名称”或“学位授予单位”字段进行数据透视,可以得到期刊论文文献的来源期刊或学位论文的学位授予单位的统计信息。共有1 611 篇与本主题相关的期刊论文被刊载在684 种学术期刊上,平均载文量为2.36 篇/刊。由表2可知,集中刊载本领域论文10 篇及以上的期刊有18 种,载文数量达438 篇,占全部期刊论文的27.19%,在期刊分类上分属于4大类,其中“食品科学技术”和“农业综合”分类占大多数。

共有1 598 篇与本主题相关的学位论文来自248 个不同的学位授予单位,平均载文量为6.44 篇/机构。由表3可知,学位论文数量在20 篇及以上的机构有17 家,论文数量达到650 篇,占本领域学位论文总量的40.68%。其中,农林类与综合类高校涉足食品安全与数据科学交叉研究领域的数量相较于其他类别更多。

使用Origin Pro 9.1软件对上述数据进行概率分布模型的拟合检验,得到图2。图2A、B分别表示本领域期刊论文载文数量和学位论文载文数量的概率分布拟合曲线,决定系数分别为0.999 9、0.999 6,具有很高的拟合优度。所以两种文献的载文数量的概率分布都服从异速生长指数(Allometric)分布。

这表明我国食品安全与数据科学交叉研究领域经过萌芽与积累,研究规模正在高速增长。根据异速生长尺度规律的特点,我国食品安全与数据科学交叉研究所形成的这个特定的食品安全子领域,可以看作是一种广义的生态系统,而本主题新科技论文的产生则是这个生态系统中最重要的信息流之一。自身的主题与偏好适合这个子领域的优质文献被刊载的期刊,或者重视这个新兴子领域发展的研究机构,会在这个新兴子领域里快速生长,显得愈发重要。

  • 重要作者分布

关于论文合著情况,共有3 619 人次的作者参与撰写了这1 611 篇期刊论文,平均作者为2.24 位/篇,即作者合作度为2.24。使用CNKI数据库的“分组浏览-作者”功能,可以查询到当前学科领域中高产作者的信息,本文将所述高产作者中发文数量大于5篇的作者信息进行整理。

同时,为了客观地评价各位高产作者在论文合著中对其论文的贡献度,本文引入了Du Yongping等2015年提出的基于作者顺序的影响力计算方法,结果显示,这些高产作者中,平均pa前5 名分别是:李太平、唐晓纯、李丽、鄂旭、肖革新,他们应该是本领域研究合作的优秀候选人。从累计pa来看,王竹天、王志刚也是本领域具备合作潜质的优秀候选人。

2.2交叉研究的研究主题分析

  • 关键词共现分析

本文使用对数似然率(LLR)算法对关键词共现网络进行聚类分析,得到了具有11 个主要聚类的关键词共现网络图谱(图3),这些聚类的轮廓值(Silhouette)均大于0.5,且部分大于0.7,说明这些聚类合理且令人信服。这11 个聚类可以进一步归纳为3大类,即:食品安全领域的新型数据采集技术(类I)、食品安全领域的新型数据分析技术(类II)、食品安全领域的新型数据科学应用(类III)。

由图3可知,1996—2019年我国食品安全与数据科学交叉研究领域形成了内部边界聚合且外部边界分明的复杂关键词共现网络图谱。该图谱有405 个节点和1 543 条连线,是一个由大量高频关键词形成的广阔知识空间。以下将根据引文空间聚类成员的归属和食品安全意义上的类别界定,以大类(I、II、III)划分为展开顺序,对所得到的关键词共现网络图谱进行深入的分析。

1)食品安全领域的新型数据采集技术

在大数据时代的背景下,物联网、区块链和电子标签等技术成为了采集新型食品安全数据的重要支撑技术。将网络嵌入食品生产流通各环节的物理设备,有利于提升食品供应链的智能化,完善食品溯源体系。

2)食品安全领域的新型数据分析技术

数学模型方法结合新兴的人工智能技术应用于食品安全领域,提升了食品安全数据及其分析挖掘技术在食品安全治理中的功能与地位。质量控制图是一种简单、有效的统计技术。带有上中下控制界限的、以检测食品生产过程安全和判断食品质量稳定状态为目标的控制图,已经逐步演化和固定为食品质量安全过程控制的专门化数据分析方法。

3)食品安全领域的新型数据科学应用

以数据密集型科学发现的研究范式,研究前沿且恰当的食品安全问题,是数据科学应用在食品安全领域的一种使命。因为面向主体对象不同,故其应用场景和应用需求也不相同。所研究的对象是当前层出不穷的各类食品安全事件及危险源;所研究的内容是在宏观层面上食品安全水平提升所亟待解决的各种问题;交叉研究所受益的主体及研究方向包括:政府的智慧监管与风险预警、食品企业的生产控制与事后应对、消费者的食品安全风险认知与支付意愿等。

  • 时间线聚类分析

使用Citespace软件进一步绘制关键词共现网络的时间线图谱,由图4可知,我国食品安全与数据科学交叉研究的各研究主题存续时间不同。图中的这些颜色与流向表征着我国食品安全与数据科学交叉研究的不同发展阶段。

1996—2006年为重视食品标准数据与传统数理统计方法的阶段。此阶段的科技文献主要侧重引进国外先进的食品安全标准并与我国的食品安全标准进行比较;在数据分析上多基于HACCP系、调查问卷方法和数理统计工具。

2007—2014年为新型食品安全数字技术和数学模型方法开始涌现的阶段。此阶段层次分析法、贝叶斯网络、关联规则、决策树、可拓决策等数学模型方法被广泛地应用于食品安全风险评估和风险预警等方面;RFID、QR二维码、同位素指纹等技术被广泛地应用于食品质量安全追溯领域。

2015—2019年为大数据与人工智能开始广泛地应用于食品安全各子领域的阶段。此阶段计算机视觉、电子鼻与电子舌、模式识别等基于人工智能的食品安全无损检测技术得到应用;基于区块链技术的可追溯平台、基于大数据的社会共治模式、食品安全大数据的可视化分析方法、基于大数据的食品安全风险分析等由大数据技术驱动的食品安全智慧监管技术与模式正在探究与实践中。

  • 关键词突现分析

本文采用Kleinberg突发事件检测算法来探测文献空间中的突现词,Citespace软件会从论文题目、关键词和摘要等字段中提取候选专业术语,通过跟踪分析它们在不同时间区间内出现频率的突然变化(激增),识别出代表研究前沿的若干名词术语。运行程序后,Citespace找到了47 个突现关键词,将突现度前50%的突现词按照其突现起止时间的升序排列得到表6。

从表6可以看出,不同年份本领域的研究者所关注的研究热点不同。根据表6可以进一步把我国食品安全与数据科学交叉研究的热点演进划分为3 个阶段,与时间线聚类分析的年代划分相吻合。1)1996—2006年为重视国外食品安全标准的引进及与我国食品安全标准开展比较研究的阶段,“检索工具”、“GB(国家标准)”是这一阶段的突现词。2)2007—2014年,突现词“RFID”和“电子标签”代表了新型食品数字溯源技术的研究方向;突现词“利益相关者”与“食品行业”代表了与食品企业有关的研究方向;突现词“供应链”与“预警”等代表了与食品安全风险控制有关的研究方向。3)2015—2019年,突现词“大数据”代表了数据密集型科学发现的研究范式;突现词“风险感知”、“购买意愿”和“社会共治”等代表了这一阶段涌现出的研究热点。

3 讨 论

3.1 交叉研究当前的研究热点

  • 新型数据采集技术与食品溯源及网络舆情的研究

在食品从农田到餐桌的流通过程中,食品及其有关主体的多重属性被计量和记录,产生了食品关联属性的数据化基础。以保障食品质量或数量安全为目的,提取这些数据,则产生了海量的食品安全数据。数据采集技术的发展使得文本资料、社会关系、地理方位等不易被提取的数据变得可被利用;使得政府、企业、检测机构、行业协会、媒体和消费者这6 类食品安全社会主体所产生和需要的结构化、半结构化和非结构化数据被各种技术手段收集和储存,以备挖掘与利用。

一方面,RFID和传感器、物联网等面向现实世界中食品理化数据的数据采集技术,推动了食品安全溯源技术的发展。另一方面,网络爬虫及数据接口等面向虚拟世界中的食品资讯数据的数据采集技术,推动了食品安全舆情研究的发展。

  • 新型数据存储技术与食品数据仓库及预警系统研究

大数据及其应用技术的爆炸式发展所产生的数据存储需求推动了数据存储技术的发展。大规模并行处理机(MPP)存储架构、Hadoop技术和分布式计算等新兴技术,让已经长期存在的食品安全大数据有了被规范化存储和多元化挖掘利用的可能性,尤其是基于数据库的食品安全预警系统,是当前研究的重要热点形态。

  • 新型数据分析技术与食品安全智能解决方案研究

应用数据科学模型方法体系中的有监督学习、半监督学习和无监督学习的各类算法对海量的食品安全数据进行计算分析,可以为食品安全的信息探测、数据预测和风险评估等各方面带来更加智能化的解决方案。

  • 新型数据可视化技术与食品安全决策辅助研究

食品安全数据可视化分析作为一个新兴的交叉研究领域,通过先进的交互式可视化工具帮助食品安全领域人员快速分析数据的分布态势、探寻数据间隐含关联、提升认知和分析能力、提高食品安全监管的科学性和有效性。

  • 面向对象的食品安全大数据技术应用研究

面向食品安全治理的不同社会主体的数据特征和数据需求的应用研究,是目前交叉研究的重要横向层面。总体来看,政府需要食品安全智慧监管类的研究。

3.2交叉研究未来的发展趋势

随着大数据时代的到来以及数据挖掘技术在食品安全领域的应用,数据科学在食品安全各领域的地位将会越来越重要,食品安全监管也将向着更加智能化的方向发展,社会食品安全水平必然会得到更加显著的提升。从数据科学的发展趋势来看:数据可视化、文本挖掘与自然语言处理、社交网络分析、计算机视觉和高性能计算等会成为未来的大数据技术前沿。

若将这些前沿技术投射到食品安全领域,则会带来如下的未来研究热点:1)计算机视觉技术的发展将推动食品无损检测技术的研究;2)自然语言处理能力的提升将推动食品安全网络舆情处理的研究;3)各种机器学习算法的进步将推动食品安全历史数据的知识发现以及决策支持的研究;4)食品安全大数据的云储存与人工智能服务的需求将持续扩大,其产业化的研究将得到蓬勃发展。

结 语

在近23 年的发展历程中,我国食品安全与数据科学的交叉研究从零星的学科交集萌芽,逐渐发展出一个新兴交叉学科的雏形,目前正处于新的快速增长期。文献数量呈指数式增长,目前已存在3 375 篇各类文献的研究体量,期刊论文和学位论文的年平均增速分别达到51.49%和52.45%,作者合作度为2.24。涌现出的高产和高贡献度作者越来越多。通过CNKI的“分组浏览-研究层次”检索功能获知,我国食品安全与数据科学交叉研究目前涉及到国内工程技术(自科)、行业指导(社科)和基础研究(社科)等16 个学科领域。结合科学计量学的分析,得出以下3 个方面的结论。

第一,通过关键词共现图谱分析,找出了本领域3大类11小类热点研究主题。通过时间线聚类图谱分析与关键词突现度图谱分析,划分出了本领域发展史上的3 个典型历史阶段;预计在未来计算机视觉、自然语言处理技术、机器学习算法和大数据服务产业会在我国食品安全与数据科学交叉领域发挥更加重要的作用。

第二,数据科学的各种技术与食品安全社会共治的各个主体的实际需求相结合,诞生出各种面向对象的食品安全大数据技术,是推动食品安全与数据科学交叉融合、促进食品安全大数据技术发展的重要横向动力。

第三,高被引论文只是总体文献中的极少数,国内研究与世界先进水平相比仍有差距;相比起食品安全领域的其他成熟学科板块,本领域的学科影响力仍然较为有限。

本文也存在一定的局限性,因为数据下载阶段可检索到并可供下载的数据与所在高校(或研究机构)所购买的数据库的时间跨度及文献种类的权限有关。故可能存在少量未被CNKI收录的文献,或作者单位未购买下载权限的数据库所包含的文献,未被纳入本研究的数据集会造成少量的样本缺失,并会一定程度地影响科学计量与主题分析的精准度。

本文《我国食品安全与数据科学交叉研究的科学计量学分析》来源于《食品科学》2020年41卷13期291-301页,作者:邵航,宋英华,李墨潇,邵伟,雷生姣,库任俊,夏亚琼。DOI:10.7506/spkx1002-6630-20190608-078。点击下 阅读原文 即可查看文章相关信息。

为进一步促进动物源食品科学的发展,带动产业的技术创新,更好的保障人类身体健康和提高生活品质,北京食品科学研究院和中国食品杂志社在成功召开“2019年动物源食品科学与人类健康国际研讨会(宁波)”的基础上,将与青海大学农牧学院2020年10月22-23日在西宁共同举办“2020年动物源食品科学与人类健康国际研讨会”。研讨会将就肉、水产、禽蛋、乳制品等动物源食品科学基础研究、现代化加工技术,贮藏、保鲜及运输,质量安全与检测技术,营养及风味成分分析,副产物综合利用,法律、法规及发展政策等方面的重大理论研究展开深入探讨,交流和借鉴国外经验,为广大食品科研工作者和生产者提供新的思路,指明发展方向。

在此,我们诚挚的邀请您出席本次国际研讨会,共聚人脉、共享资源、共谋发展!

修改/编辑:袁月;责任编辑:张睿梅

图片来源于百度图片及文章原文