近日,美国南加利福尼亚大学博士生黄腾昊和其所在团队通过引入 AI,有效处理了食品行业在风味数据复杂性预测方面的难题。

这改变了传统食品工程实验室通过多轮合成/试错/反馈,来理解食品风味分子组成和食品风味特征的耗时耗力的方式。

图丨黄腾昊(来源:该团队)
打开网易新闻 查看精彩图片
图丨黄腾昊(来源:该团队)

该团队首先引入一个新颖的数据集(FoodPuzzle),该数据集包含 978 种食品项目和 1766 种风味分子的资料,这些资料来源一个包含风味分子详细信息的综合数据库于 FlavorDB [1]。

该数据集的结构包括两项任务:

第一,食品风味预测,即基于给定的风味分子的集合预测食品种类;第二,食品分子组成预测,即识别指定食品中可能的风味分子。

图丨 FoodPuzzle 数据层次的高级概述(来源:arXiv)
打开网易新闻 查看精彩图片
图丨 FoodPuzzle 数据层次的高级概述(来源:arXiv)

随后,他们开发了一种新型的科学代理(scientific agent)模型,集成了将上下文学习与检索增强技术,以改善风味特征预测。

未来几年内,该项研究成果可能会有以下几个潜在方向的具体应用:

其一,在加速食品研发方面,该团队提供的科学代理可以帮助快速预测和验证不同食品成分和风味分子的组合,从而加速新产品的研发过程。例如,可以快速筛选出符合特定口味需求的食品配方。

其二,在个性化的食品开发领域,根据不同消费者的口味偏好,利用大数据分析和机器学习预测个性化的食品风味组合,有望帮助企业开发出更符合市场需求的个性化产品。

其三,食品质量控制方面,通过对食品中风味分子的精准预测和分析,可以更好地控制食品的质量和风味稳定性,确保产品的一致性和提升消费者的满意度。

其四,在食品安全检测方面,利用该技术可以在食品生产过程中检测和分析风味分子,及时发现生产过程中可能出现的问题(如污染或成分偏差),从而提高食品的安全性。

近日,相关论文以《FoodPuzzle:开发大语言模型代理作为风味科学家》(FoodPuzzle: Developing Large Language Model Agents as Flavor Scientists)为题发在arXiv上 [2]。

目前,该论文已被国际计算语言学会议(The NLP4Science Workshop at EMNLP,Empirical Methods in Natural Language Processing)接收。

南加利福尼亚大学博士研究生黄腾昊为论文主要作者。

图丨相关论文(来源:arXiv)
打开网易新闻 查看精彩图片
图丨相关论文(来源:arXiv)

审稿人对该研究评价道:“这项工作结合了食品科学和人工智能,是人工智能在科学领域的应用方向上一次创新的尝试。该团队创建 FoodPuzzle 数据集是一个重要的贡献。”

通过围绕风味分子预测和食品识别挑战特别构建数据集,研究提供了一个宝贵的资源,可以用来训练更专业的模型并促进该领域的进一步研究。

该团队的方法不仅提高了预测准确性,还通过预测提供可追溯的理由,增强了 AI 决策的可解释性。在 AI for Science 方向上,理解模型输出背后的“为什么”和输出本身一样重要。

打开网易新闻 查看精彩图片

科学代理模型是如何工作的?

为了打破传统食品行业的风味合成和预测壁垒,该团队搭建了一种新型的科学代理模型,其工作步骤主要有四方面。

(来源:arXiv)
打开网易新闻 查看精彩图片
(来源:arXiv)

其一是上下文学习与检索增强生成,该方法采用上下文学习,在预测过程中模型使用数据集中的相关示例或演示。

这种方式有助于使大语言模型的响应更具针对性,使其能够基于风味科学的细微差别做出更准确的预测。

该团队还使用了检索增强生成,模型动态地检索和整合外部知识(如科学论文和数据库如 FlavorDB)进入生成过程。这对于确保生成的假设基于事实、特定领域的信息至关重要。

其二是假设生成,该代理旨在提出关于食物中潜在风味分子的假设,或基于分子组成的可能食品来源。它利用大模型分析和综合大量数据的能力,来识别人类研究者可能不会立即注意到的联系。

其三是利用学术资源,由于大模型本身的幻觉问题,该团队通过访问和整合学术论文和科学数据库中的信息,代理确保其用于形成假设的信息的准确性和相关性。在风味科学领域,准确理解分子相互作用是必需的。

其四是角色扮演框架,该团队采用科学家和评审员角色扮演方法。

具体来说,科学家生成多个假设,评审员批判性地评估这些假设,以选择最合理的一个。这模仿了科学研究中的同行评审过程,确保最终假设不仅可行,而且是可用的最好的选项。

在这项研究中,研究团队还发现了一些有意思的现象:

其一是人工智能对于食品风味工程领域也有优秀的理解。同时,该模型在推理过程中会显得比较“固执”。

其二是对于检索增强技术来说,该课题组一直以来的研究理念就是检索的信息不应该只局限于文本。

当该团队把风味分子相关的化学信息提供给模型进行推理增强时,观察到模型的表现有所提升。

打开网易新闻 查看精彩图片

不经意的讨论开启科学新发现

这个研究项目是 2023 年黄腾昊博士在亚马逊实习时和同事约翰·斯威尼(John Sweeney)一起开始的。当时,黄腾昊的实习项目是检索增强生成。

当时两个人准备去买香水,约翰开玩笑说,如果独立的香味分子可以被检索返回,根据其香味性质可以对香水的气味进行“规划”。

回到家后,约翰给黄腾昊博士发送了关于 FlavorDB 的论文。他们对于每个食物的风味分子进行了分析,并以数据库的形式发表。

黄腾昊开始意识到,相似的食物之间会有许多风味分子的重合,而某些分子似乎与特定风味有关联。

后来,约翰从 FlavorDB 收集数据并和化学分子数据库 PubMed 等对照对比,创造了本次研究的数据集。

今年 2 月,他们将项目汇报给导师。导师也觉得很有意思,并为他们介绍了美国加利福尼亚大学戴维斯分校的食品科学家,该项目正式进入到研究阶段。

在后续的研究计划中,他们计划研究和食品风味科学家合作,评估风味化合物的化学、生物和感官特性将如何提升模型的准确性和影响。

使用像液相色谱-质谱和气相色谱-质谱这样的分析仪器,来检测和量化食品样品中的风味分子,以验证结构和纯度,确认风味剖面的假设。

合成化学实验室可合成预测的候选风味分子,使其组织感官特性得到验证。

感官实验室可以模拟人体感官来评估合成的风味,微调 AI 模型预测,以符合人类对风味质量和强度的感知。

生物实验室通过进行生物测定能评估风味化合物的安全性和有效性。

高通量筛选技术可以快速测试大量的风味分子库,进而生成大量数据集以增强 AI 预测。

参考资料:

1.https://cosylab.iiitd.edu.in/flavordb2/

2.https://arxiv.org/pdf/2409.12832

运营/排版:何晨龙