随着食品供应链的全球化和食品种类的日益丰富,食品安全监管正面临前所未有的挑战:食品安全法规标准复杂且不断更新,不同地区的标准存在差异,增加了监管合规审核的难度。同时,人工智能(AI)领域中大语言模型(LLM)技术正在快速发展:从BERT(Bidirectional Encoder Representation from Transformers)引入双向Transformer结构以提升语言理解能力,到GPT系列采用自回归架构强化文本生成,再到T5将多任务统一为“文本到文本”框架以增强泛化能力,以及PaLM等超大规模模型通过参数扩展显著提升推理与上下文理解能力。在此背景下,食品安全领域迎来了智能化监管的新机遇。近年来,研究者开始探索将LLM应用于食品安全领域的具体任务中。

然而,LLM主要依赖训练数据进行推理,其封闭式知识无法保证食品安全监管所需的信息实时性和权威性。为了弥补LLM难以动态更新知识以及在食品监管领域回答准确性不佳等问题,引入检索增强生成(RAG)是一种有效的方式。它的原理是将LLM作为生成器模块,通过检索外部知识库(如包含食品添加剂标准),得到与查询文本相关的信息,与提示词合并后提供给LLM,使其能够在生成答案时引入最新、可靠的知识,增强模型的专业性和可信度。

值得注意的是,RAG技术存在一定的不足:一方面,基于非结构化文本的知识库难以捕捉食品相关标准、检测报告等数据间的复杂关联,导致推理效果不佳;另一方面,检索方式依赖静态语义相似度计算,无法适应食品监管的复杂语义场景。为了解决这些问题,近年来研究者们提出了多种改进方式。

北京工商大学计算机与人工智能学院的毛典辉、王可浩,中国标准化研究院的徐静婷*等问基于RAG架构提出了一个智能问答系统,整体结构如图1所示。其核心是食品安全监管大语言模型(FSR-LLM),旨在以低成本实现高效的食品安全监管问答:首先,采用知识图谱结构组织食品安全相关知识,以系统化表达食品法规标准、检测数据以及企业合规等信息。同时,在检索策略上,针对食品安全知识体系庞杂的特点,利用LLM对用户查询文本进行智能解析,从全局语义的角度理解用户意图,精准提取查询文本中的核心实体(如食品名称、企业主体等),并从知识图谱检索相关的三元组及其邻接节点,构建更为全面的提示信息,确保能够涵盖食品安全监管中的核心要素。此外,利用低秩适配(low-rank adaptation,LoRA)技术对生成器(LLM)进行指令微调,以较低的成本提高模型对带有食品安全专业术语、监管要求指令的理解能力。

打开网易新闻 查看精彩图片

1 实验设置

为了验证方法的可行性,本实验利用随机采样的方式将食品安全问答数据集按照8∶2的比例划分为训练集和测试集,利用测试集中的问题让FSR-LLM生成答案,并与标准答案进行对比,以量化模型在食品监管问答任务中的表现。

在评价指标方面,针对食品监管领域文本专业术语密集、法规表述结构化、安全指标精确性要求高等特点,本研究从生成质量、内容覆盖度及专业准确性3 个层面综合评价模型性能。选取了BLEU-4、Rouge-L和准确率这3 个常用评测指标,以多角度量化FSR-LLM在食品领域问答任务中的表现。

BLEU-4通过计算四元组(4-gram)的匹配精度衡量生成文本与标准答案之间的相似度。在食品安全监管问答任务中,该指标能够评估模型是否准确复现法规条文、检测标准和监管要求,确保生成内容在措辞和结构上的准确性。Rouge-L采用最长公共子序列方法,衡量模型生成的回答与参考答案之间的语义重叠度,关注信息完整性和逻辑连贯性。在食品安全法规解析、企业合规性审核等场景下,Rouge-L能够反映模型回答是否涵盖核心监管信息,避免片面或不完整的解读。同时,食品安全监管对问答的准确性要求极高,因此采用准确率衡量模型是否能够提供符合法规等要求的答案,确保在食品添加剂合法性判断、生产经营许可查询等任务中不会生成误导性回答。

在实验环境方面,本实验在单张NVIDIA GeForce RTX 4090 GPU上进行模型微调与推理。RTX 4090具备24 GB显存和高效的计算能力,在保证较强推理性能的同时,相较于数据中心级GPU(如A100、H800等显卡)大幅度降低了硬件成本,使得食品安全监管部门和相关企业能够以更低的计算资源投入部署大模型应用。得益于LoRA微调方法,在有限的计算资源下实现了对食品安全监管问答任务的高效适配。此外,整个实验流程基于PyTorch深度学习框架实现,并结合Hugging Face生态进行适配,以确保模型的可扩展性和实际部署的便捷性。

2 模型选择

在本研究中,需要选择一个合适的基础模型作为生成器进行微调。为了评估不同模型在食品领域对话任务中的表现,从构建的食品领域问答对数据集中抽取了20%的数据作为测试集,并分别对Baichuan-7B-Chat、ChatGLM3-6B、Qwen-7B-Chat以及DeepSeek-R1-Distill-Qwen-7B模型进行了评估。如表2所示,Qwen-7B-Chat在食品安全监管领域问答任务上表现优异,BLEU-4值和Rouge-L值分别为6.88和14.89,优于其他3 个模型,说明Qwen-7B-Chat在食品安全监管领域的相关术语表达方面具有更高的准确性,能够更精准地理解和生成与食品安全监管相关的专业术语,如“食品添加剂”“微生物污染”“风险评估”等。同时,较高的Rouge-L值也体现出该模型生成的回答在内容覆盖度和逻辑连贯性上更具优势,能够更全面地涵盖食品安全监管的核心问题,并生成结构清晰、逻辑严谨的答案。

打开网易新闻 查看精彩图片

在准确率方面,Qwen-7B-Chat为12.19%,高于Baichuan-7B-Chat(9.38%)和ChatGLM3-6B(10.61%),但略低于DeepSeek-R1-Distill-Qwen-7B(12.41%)。这可能与其知识蒸馏算法策略有关。它可以使其在特定任务上的泛化能力更强,能够更准确地捕捉食品安全监管领域的关键信息。但DeepSeek-R1-Distill-Qwen-7B在BLEU-4和Rouge-L上的表现仍不及Qwen-7BChat,表明其在生成质量和语义一致性方面仍存在一定差距。综合考虑各个方面,Qwen-7B-Chat仍是更优的选择。因此,最终选择Qwen-7B-Chat作为基础模型,进一步提升其在食品安全监管领域对话任务中的性能,为相关智能问答系统提供更高质量的支持。

3 微调结果

在生成器微调的实验中,使用了交叉熵损失函数(式(5))评估模型生成的输出与目标文本的差异。

式中:N为批次中的样本数量;T为每个样本的序列长度;

y
i,t
为目标分布(通常为one-hot编码);
y'
i,t
为模型预测的概率分布。

该损失函数能够计算模型生成的预测分布与目标分布之间的差异,通过最小化差异,使得模型生成的输出更加接近目标文本。即以token为粒度,衡量模型在每个训练步骤中生成的单词与目标单词之间的匹配程度。

图7展示了微调Qwen-7B模型时的训练损失变化曲线,包括原始的损失曲线和经过平滑处理后的损失曲线。初期时损失函数剧烈下降,表明模型在早期训练阶段快速学习了食品安全法规(如《中华人民共和国食品安全法》)、风险评估标准(如HACCP体系)等关键知识,而后期损失的缓慢下降和逐渐收敛则反映出模型能够持续进行优化。整个训练过程损失变化稳定,说明指令微调后的Qwen-7B-Chat模型能够有效适应食品安全监管任务的需求,生成符合法规要求的文本,并准确理解与食品安全相关的专业术语。

打开网易新闻 查看精彩图片

4 性能分析

为了全面评估FSR-LLM在食品领域任务中的表现,选取国内外具有代表性的通用LLM进行横向对比,包括GLM-4-Plus、Llama-3、Qwen-Plus、DeepSeek-v3和GPT-4o。它们均为各机构发布的旗舰级LLM,具备强大的通用性能和广泛的应用场景,并且在多个基准测试中得到验证。通过与这些模型进行比较,探究FSR-LLM是否能在保持高效计算效率的前提下实现性能优势。如表3所示,FSR-LLM在各项指标上表现十分出色,均显著优于其他主流模型。具体而言,FSR-LLM的BLEU-4值为25.31,相较于GLM-4-Plus(6.77)、Llama-3(6.87)和Qwen-Plus(7.36)分别领先了18.54、18.44和17.95,证明FSR-LLM在食品安全监管领域下文本生成质量方面具有显著的优势,能够更准确地生成与食品相关的自然语言描述,提升了食品信息的表达和用户体验。例如,当生成关于食品安全警告或检测报告时,FSR-LLM能够清晰、精确地描述问题,如“检测到含有过量农药的蔬菜”,同时提供相关的安全指导和处理措施,确保信息传递准确无误。在Rouge-L指标上,FSR-LLM达到了40.02,相比于次优模型GPT-4o(27.39)提升了12.63,证明了FSR-LLM在食品领域的语义匹配度方面的强大能力,能够更好地捕捉食品实体及安全信息之间的语义关系,确保语义和背景知识的精准匹配。而对于问答准确率,FSR-LLM达到了53.17%,表明其在食品安全监管领域问答任务的执行精度上有着不俗的表现,能够确保在处理食品检测、违规行为识别和食品追溯等任务时的可靠性和高效性。

打开网易新闻 查看精彩图片

同时发现,DeepSeek-v3与GPT-4o作为目前国内外最为领先的模型,依托万亿级语料库展现出通用语言理解与生成能力,整体分数普遍高于其他通用模型。而在面向食品安全监管这一垂直领域任务中,FSR-LLM仍能凭借针对性的指令微调和知识注入实现性能反超,特别是在涉及食品添加剂标准等法规条文的应用场景中,显示出更稳定的合规性输出。这一表现得益于2 个方面:一是结构化知识建模方式对食品监管语料进行图式抽取与组织,增强了知识间的逻辑连贯性,显著改善了传统RAG系统在多跳推理和语义整合方面的局限;二是生成模块引入了指令微调模型,并通过提示词控制生成风格,从而使模型能够对食品标准、检测数据等专业语义维度形成稳定输出,显著提升其在高规范性任务中的表现。

5 方法效果分析

为了验证FSR-LLM中所采用的食品知识图谱知识库以及大模型引导检索策略的有效性,将这2 种方法分别替换为传统的普通文本知识库和基于语义相似度计算的检索方法,进行了对比实验。如图8所示,食品知识图谱知识库的应用在生成文本的多样性和准确性方面取得了显著优势。FSR-LLM采用食品知识图谱知识库时的BLEU-4值为25.31,相较于普通文本知识库的方式(21.70)提升了3.61,表明知识图谱结构能够帮助模型更有效地组织食品法规、食品标准等关键知识点,并提高食品安全合规性判断的精确度。同时,采用食品知识图谱知识库的FSR-LLM Rouge-L值为40.02,较普通文本知识库(35.39)提高了4.63,表明知识图谱能增强模型对食品安全监管法规条文和标准内容的语义理解能力,使回答更具逻辑连贯性。在准确率方面,采用食品知识图谱知识库的FSR-LLM为53.17%,明显高于普通文本知识库的47.56%,进一步验证了知识图谱能减少模型生成错误信息的可能性,确保食品安全监管问答的准确性。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

另外,大模型引导检索策略同样展现了强大的能力。在与传统相似度计算方法的对比实验中,基于LLM的策略在BLEU-4、Rouge-L和准确率指标上均表现更优,体现出基于大模型引导的检索策略不仅能匹配用户查询中的显性关键词,还能结合食品安全法规的上下文关系,精准检索出最相关的法规条款等信息。例如,在食品召回公告问答中,精准检索策略使得模型能够准确提取公告中的产品名称、召回批次、召回原因,避免因传统语义相似度检索方式带来的信息丢失或错误匹配。

6 消融实验

为了验证各个组件对模型性能的贡献,进行了消融实验,评估了4 种不同配置下模型(原始的Qwen-7B模型(w/o)、去除知识图谱知识库模块的模型(w/o KG)、去除LoRA微调模块的模型(w/o LoRA)以及最终模型FSR-LLM)的表现。如表4所示,FSR-LLM模型在BLEU-4、Rouge-L以及准确率上分别达到了25.31、40.02和53.17%,较w/o配置分别提升了18.43、25.13和29.38%。结果表明FSR-LLM在食品安全法规解析和监管问答等方面生成的文本更准确、信息更完整。

打开网易新闻 查看精彩图片

去除LoRA微调模块(w/o LoRA)后,模型的BLEU-4值、Rouge-L值以及准确率为15.29、28.42和37.13%,相比于最终模型FSR-LLM分别下降了10.02、11.60和16.04%。表明LoRA微调在有限计算资源下,仍能有效提升模型对食品安全监管知识的理解能力。而在去除知识图谱知识库模块(w/o KG)后,模型的BLEU-4值、Rouge-L值以及准确率分别为20.87、33.83和43.21%,下降了4.44、6.19和9.96%,说明食品知识图谱通过提供结构化的法规与标准信息,有助于提高FSRLLM对监管问题的回答准确性。

知识图谱的结构化信息检索增强与LoRA的高效微调技术对FSR-LLM模型的性能提升具有协同增效作用。知识图谱通过显式关联食品领域实体关系,显著增强了模型的专业知识推理能力;而LoRA微调在降低计算成本的同时,有效保留了PLM的泛化特性。二者的结合使得FSR-LLM在生成准确性和语义连贯性上实现突破性进展,验证了结合领域知识库和高效微调策略在提升模型性能方面的有效性,更精准地辅助食品安全监管工作。

7 可视化效果

以一个查询问题“脱氢乙酸及其钠盐在腌渍的蔬菜中的最大使用量”为例,观察改进前后模型在回答质量上的差异。如图9所示,未改进模型基于GB 2760—2014中的旧标准进行回答,给出的最大使用量为0.5 g/kg,未能及时反映2024年标准的更新内容。虽然回答中提及了法规来源,但缺乏对条文细节的深入解读,未提供额外的信息,专业表达略显笼统。

打开网易新闻 查看精彩图片

如图10所示,改进后的模型参考了最新的GB 2760—2024《食品添加剂使用标准》,准确指出腌渍蔬菜中脱氢乙酸及其钠盐的最大使用量为0.3 g/kg,且明确指出该限量“以脱氢乙酸计”,同时提供了对应的食品分类号“04.02.02.03”,体现了回答的可靠性和准确性。

打开网易新闻 查看精彩图片

结 论

本研究围绕食品安全监管场景,提出了一种基于RAG框架的智能问答系统FSR-LLM,以提升食品安全法规、标准与合规性等方面问答的精准性和专业性。相比于传统的RAG方法,FSR-LLM在知识库层面结合了知识图谱,使食品安全相关知识的结构化程度更高,增强了上下文信息结合的能力。在检索方式上,采用LLM引导检索策略,利用其强大的文本解析能力,提取查询文本核心实体,生成更为精准的检索查询语句,并进一步扩展查询这些实体的邻接节点,确保检索召回结果更加全面且具备更强上下文关联性。此外,FSR-LLM中采用LoRA技术对生成器Qwen-7B-Chat进行指令微调,能够在单张4 090 GPU上实现高效低成本的训练,确保模型在计算资源受限的环境下仍具备较强的适应性。结果表明,FSR-LLM在BLEU-4、Rouge-L和准确率等指标上均显著优于基线模型,验证了该方法在食品安全监管问答任务中的有效性。

然而,本研究仍存在一定的局限性,未来工作可从以下方面进一步优化:首先,当前系统在复杂查询语境下的鲁棒性表现需要进一步地评估与验证,未来可构建涵盖不同干扰因素的测试集,并引入更加细致的评估指标,以全面检验FSR-LLM在真实监管任务中的稳健性。此外,实验中发现LLM固有的生成随机性会导致评测指标存在一定的波动,特别是在开放性问题回答时可能影响结果一致性,需要探索更加稳定、准确的评估策略。未来将继续致力于优化FSR-LLM的各项能力,以进一步提升其在复杂食品安全监管场景下的应用价值和决策可靠性。

作者简介

通信作者:

打开网易新闻 查看精彩图片

徐静婷中国标准化研究院—清华大学博士后研究人员。博士毕业于北京大学法学院,目前在中国标准化研究院从事标准化与知识产权相关领域研究。主持或者参与国家市场监督管理总局委托项目、国家知识产权局软科学研究项目等省部级、地市级课题项目10余项。参与3 项国家标准的制修订工作。在《治理研究》《财贸经济》等中文核心期刊发表多篇论文。

第一作者:

打开网易新闻 查看精彩图片

毛典辉,北京工商大学计算机与人工智能学院教授(博士生导师)。博士毕业于华中科技大学系统分析与集成专业,目前在北京工商大学从事食品安全监管、区块链&AI融合应用等相关领域研究。是农产品质量安全追溯技术及应用国家工程研究中心、食品安全大数据技术北京市重点实验室重要成员,获聘全国工商联智库委员会委员,中国自动识别技术协会专家成员,入选江苏省“企业创新创业(双创)人才计划”、北京市“青年英才计划”。主持国家社会科学基金、北京市自然科学基金、北京市社会科学基金、教育部人文社科基金等课题项目,参与国家重点研发计划课题、中国工程院重大咨询研究等多项课题。出版学术专著1 部,授权发明专利和软件著作权30余项,参与3 项国家标准的制修订工作。在《Computers and Electronics in Agriculture》《Chemical Engineering Journal》《Electronic Commerce Research and Applications》等杂志发表论文70余篇,其中被SCI/EI收录40余篇。

引文格式:

毛典辉, 王可浩, 陈俊华, 等. 基于增强检索生成框架的食品安全监管智能问答系统[J]. 食品科学, 2025, 46(22): 13-22. DOI:10.7506/spkx1002-6630-20250408-059.

MAO Dianhui, WANG Kehao, CHEN Junhua, et al. An intelligent question answering system for food safety regulation based on retrieval-augmented generation framework[J]. Food Science, 2025, 46(22): 13-22. (in Chinese with English abstract) DOI:10.7506/spkx1002-6630-20250408-059.

实习编辑:王奕辰;责任编辑:张睿梅。点击下方阅读原文即可查看全文。图片来源于文章原文及摄图网