浙大&蚂蚁OneKE大模型知识抽取框架，探索大模型的可控生成|schema|大模型|模型知识|蚂蚁|视频生成模型

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。欢迎《》以及《》。

OneKE是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架，具备中英文双语、多领域多任务的泛化知识抽取能力，并提供了完善的工具链支持，基于Chinese-Alpaca-2-13B 全参数微调的版本以及对应的IEPile数据集已经发布在始智AI wisemodel.cn开源社区，欢迎大家前去社区体验下载。

https://wisemodel.cn/organization/zjunlp（浙大NLP团队主页）

OneKE 在多个全监督及零样本实体/关系/事件抽取任务上取得了相对较好的效果，实现可解释的推理决策，增强大模型缓解幻觉并提升稳定性，加速大模型在医疗、金融、政府等垂直领域的落地应用。

一、OneKE简介

OneKE 主要聚焦基于 Schema 的可泛化信息抽取，采用了基于 Schema 的轮询指令构造技术，专门针对提升大模型在结构化信息抽取的泛化能力进行了优化，旨在通过提供中英双语、可泛化的大模型知识抽取，OneKE 在一定程度上具备统一、通用、可泛化的知识抽取能力。同时，配套开源 OpenSPG 及 DeepKE开源框架的支持，支持开箱即用。帮助研究人员和开发者更好地处理信息抽取、数据结构化、知识图谱构建等问题。

OneKE 支撑了蚂蚁知识图谱构建能力的建设，并在多个内部业务领域应用。与此同时，基于 OpenSPG的图谱自动构建系统正在开发，用户仅需输入“请帮我基于上述文本构建知识图谱”的简单指令，便可迅速完成文本的知识抽取及图谱构建。该平台集成了包括 Schema 自动构建、混合模型知识抽取在内的多个组件，而 OneKE 则是该平台的核心技术之一。目前，已经验证了可行性，未来相关能力成熟后，将推出完全开放的自动知识构建平台服务。

OneKE 的典型特点：

1. 多领域多任务泛化性。支持金融、常识、医疗等领域实体多属性、事件多论元的抽取，不限制属性数量；

2. 中英文双语支持。支持中文和英文两种语言文本的知识抽取任务；

3. 完善的工具链支持。OneKE 依托 OpenSPG 及 DeepKE 开源库提供了完善的 SFT 及抽取工具支持，开箱即用

二、OneKE的训练方法

2.1数据处理

数据的形式和质量是提升大模型能力的关键。针对不同领域、任务、语言的数据格式不统一问题，OneKE在训练前进行了数据的归一化与清洗。首先计算每个数据集的训练集、验证集和测试集内的文本重叠情况。如果发现一个文本实例在同一个文件中多次出现，并且伴随着不一致的标签，则移除该实例。

其次，设计启发式规则以过滤低质量和无意义的数据：1）非字母字符占文本总量超过 80%；2）文本长度不足五个字符且没有任何标签；3）高频出现的停用词，如‘the’、‘to’、‘of’等，超过 80%。

2.2 指令微调

根据前人工作以及错误案例分析发现，抽取模型误判的主要原因可能在于 Schema 语义相似导致的混淆。因此，OneKE 在指令微调训练过程中采用了“基于 Schema 的轮询指令构造”技术。

如上图所示，先构建一个困难负样本字典，其键值对应的是 Schema 及其语义上相近的 Schema 集。难负样本的构建旨在促进语义近似的 Schema 更频繁地出现在指令中，同时也能在不牺牲性能的情况下减少训练样本量。然后，采取一种批次化指令生成方法，动态限制每条指令中询问的模式数量为 N（其范围在 4 到 6 之间）。

即使在评估阶段询问的 Schema 数目与训练时不同，通过轮询机制可以将询问数量平均分散至 N 个，从而缓解泛化性能下降的问题。具体算法如下图所示，详细技术细节请查阅论文“IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus”。

通过“基于 Schema 的轮询指令构造”技术，并融合开源及蚂蚁业务相关 NER、RE、EE 等近 50 个数据集可得到约 0.4B tokens 的大规模高质量抽取指令微调数据，其中部分数据已通过 IEPile 开源。这次开源的 OneKE 模型是通过在 LLaMA 上进行全参数微调得到的，这一过程利用了上文提到的大规模高质量的抽取指令数据。

三、模型效果

如下图所示，OneKE 具备相对较好的中英双语可泛化的知识抽取能力，其中在中文 NER 命名实体识别类任务、RE 关系抽取类任务、EE 事件抽取类任务上取得了相对较好的效果。

四、OneKE使用方法与案例

OneKE 中指令的格式采用了类 JSON 字符串的结构，本质上是一种字典类型的字符串。它由以下三个字段构成：(1) 'instruction'，即任务描述，以自然语言指定模型扮演的角色以及需要完成的任务；(2) 'schema'，这是一份需提取的标签列表，明确指出了待抽取信息的关键字段，反应用户的需求，这是动态可变的；(3) 'input'，指的是用于信息抽取的源文本。目前可通过 DeepKE-LLM 或 OpenSPG 来直接使用 OneKE，高级用户可自行转换和构造指令使用 OneKE。

五、局限与不足

OneKE 在全监督及多领域泛化性上有比较出色的表现，统一的指令结构也能让业务通过增加更多领域标注数据以获取更好的模型能力。通过 OneKE 框架证明了基于大模型统一知识构建框架的可行性。然而，在实际的工业应用中，业务对知识要素的覆盖率、准确率要求非常高，统一 Schema 指令结构难以覆盖所有的知识表示形式，因此 OneKE 依然存在抽不全、抽不准以及难以处理较长文本的问题。由于模型的规模有限，模型输出极大地依赖于输入的提示词（Prompt）。因此，不同的尝试可能会产生不一致的结果，且可能存在幻觉输出。

六、总结和展望

知识抽取是深度自然语言语义理解能力的重要体现。不仅需要知识抽取模型能够精确地捕获并解析文本信息，还要能够从复杂的数据中提炼出有用的知识和洞察。优化知识抽取的性能不仅能够强化模型对世界知识的理解和应用，还能够构建知识要素之间的跨领域的深度关联和依赖，这些都是大规模知识图谱构建的关键依赖。

本次开源的 OneKE 是非结构化数据知识化非常关键的一步。未来将持续优化知识抽取的性能，同时以 OneKE 为基础加速构建各领域常识世界图谱 OneGraph，也将持续发布知识图谱与大型语言模型相互增强的实践和案例。

模型地址：

https://wisemodel.cn/models/zjunlp/OneKE

数据集地址：

https://wisemodel.cn/datasets/zjunlp/IEPile

图文丨zjunlp

编辑丨赵雅鑫

----- END -----

欢迎加盟

始智AI wisemodel社区自2023年9月上线以来，取得了积极的进展，初步形成一定的影响力，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员（根据个人意向可备注“求职”或“创业”），有意加盟的朋友也可以把简历投递到liudaoquan@wisemodel.cn。

wisemodel相关

系统升级

系列模型：

欢迎投稿

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护。期待更多开发者将开源成果发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，可以申请加入wisemodel社群，持续关注社区动态。

关于始智AI wisemodel.cn开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将努力打造成“HuggingFace”之外最活跃的社区，汇聚主要AI开源模型和数据集等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。