多模态档案一体化智能检索研究（下篇）|智能检索|档案|模态|视频生成模型

关注我们 -数字罗塞塔计划-

《多模态档案一体化智能检索研究（上篇）》已对多模态档案管理的概念、框架及基本应用进行介绍，本文接着介绍多模态档案一体化智能检索的扩展应用：多模态档案语义检索和多模态档案知识图谱。

PART 1

多模态模型

随着大语言模型技术的迅速发展，多模态档案数据化处理技术、检索技术与大语言模型、知识图谱等技术发生交叉、融合，诞生了多模态模型，以下为三种多模态模型：

同时基于已较为成熟的语音识别和语义检索技术进行功能整合或重组构建多模态档案语义检索应用以满足面向不同模态的语义检索需求已成为可能。

PART 2

多模态档案语义检索

语义检索是一种信息检索技术，它不仅依赖于搜索关键词的匹配，而且还理解这些搜索关键词的含义和上下文。与传统的基于关键词的搜索相比，语义搜索试图更好地理解用户的查询意图，从而提供更准确、更相关的搜索结果。例如，当用户查询“苹果”时，传统的基于关键词的检索系统可能会返回与“苹果”直接相关的结果，如苹果的营养信息、种植方法等。而语义检索系统则会考虑查询的上下文和用户的意图，可能会返回与“苹果”相关的不同领域的信息，如苹果公司的产品、苹果种类等。

过往语义检索只针对文本信息，在多模态档案资源库环境下，可采用语音识别技术将音视频中的语音转为文字、对视频中的字幕进行提取之后再开展语义检索，从而构建多模态档案语义检索。以下为多模态档案语义检索技术路线图：

说明如下

首先进行数据收集与预处理，将音视频中的语音转为文字，提取视频中的字幕信息，若语义检索依托于知识图谱环境构建，还可将知识图谱中的结构化信息导入，进一步提升语义检索的丰富度和准确率。

通过NLP、深度学习、大语言模型等技术完成特征提取、语义理解、索引构建，将文本信息转换为特征向量并存入语义检索数据库。

最后当用户提出语义检索需求时，通过向量搜索引擎完成搜索词特征向量与语义检索数据库中已有特征向量的比对和检索。过程中还需持续对模型进行优化、校对，确保模型输出质量的稳定和可靠。

大语言模型之所以能够有效执行语义检索任务，是因为：

深度学习

通常基于深度学习架构，如Transformers，这些架构特别擅长处理序列数据和捕捉长距离依赖关系。

大量数据训练

在海量的文本数据上进行训练，从而学习到丰富的语言特征和模式。

上下文感知

能够考虑单词、短语和整个句子的上下文，以更好地理解查询的语义。

多任务学习

训练过程中模型会同时学习执行多种NLP任务，这增强了它们的泛化能力和对语言的深层理解。

PART 3

多模态档案知识图谱

多模态档案知识图谱（Multi-Modal Archival Knowledge Graph, MMAKG）是一个结合了多种信息模态的知识图谱，用于组织、管理和检索档案数据。构建多模态档案知识图谱的目的是为了提供一个更加丰富、直观和互动的档案数据检索和利用方式。

如上图，在多模态档案知识图谱中检索“济南”信息时，将文本、音频、视频、图片等信息一并检索出来并结构化呈现彼此的关联关系。

01、MMAKG构建技术路线

MMAKG构建技术路线图如下所示：

技术路线主要包括以下几个步骤：

多模态数据（如图像、视频、声音文件等）的收集与预处理：

对收集到的不同模态的数据进行预处理，使用NLP技术从文本中提取实体和概念。利用计算机视觉技术从图像中识别对象和场景，使用语音识别技术把音频中的语音转换成文字等。

多模态数据融合：

从文本中提取语义特征，如词嵌入（Word Embeddings）；从图像中提取视觉特征，如图像描述符。使用深度学习模型，如卷积神经网络（CNN）和循环神经网络（RNN），来学习多模态数据的表示。通过多模态预训练模型将不同模态的知识融合，形成统一的知识表示。

构建MMAKG：

定义MMAKG的结构，包括实体、关系和属性，将多模态数据映射到图谱结构中。

模型优化：

对MMAKG模型进行优化，提高检索和推理的效果。

02、图像-文本MMAKG构建方法

MMAKG构建过程中图像与文本的转换处理是关键点，因为音频可以转换为文字或声纹再进行处理，技术路线相对成熟，视频可被提取关键帧转换为图片，最终技术关键点还是图像与文本的转换处理。图像-文本MMAKG典型构建方法分为从图像到符号和从符号到图像，具体如下：

从图像到符号（图像转换为符号）

从图像到符号的方法是将图像内容与知识图谱中的实体或概念进行关联，即给图像添加知识图谱的标签或描述。例如，给斑马的照片添加标签“条纹”、“非洲草原”等，这些标签直接关联到知识图谱中的“斑马”实体。

从符号到图像（符号转换为图像）

从符号到图像的方法是为知识图谱中的每个实体找到相应的图像表示，即将知识图谱中的文本信息与图像数据进行匹配。例如：先在知识图谱中找到“斑马”这一实体，然后搜索与之相关的图像，比如从照片库中找到斑马的图片，并将这些图片与知识图谱中的“斑马”实体关联起来，用户不仅能阅读关于斑马的信息，还能看到斑马图像。

在选择构建MMAKG的方法时，需根据应用场景、可用资源、预期目标和用户需求来综合考量这些优缺点。如果应用场景中图像数据丰富且标注成本不是主要限制因素，从图像到符号的方法可能更合适,如果知识图谱已经建立且需要为其添加视觉元素，从符号到图像的方法可能更有优势。同时不排除两种方法共同使用的情况。

03、MMAKG展示方式

MMAKG的展示方式同样包括两种：基于属性（A-MMAKG）和基于节点（N-MMAKG）。如下图所示：

A-MMAKG

将多模态数据视为实体或概念的属性值。这意味着每个知识图谱中的实体（比如一个人、地点或物体）都可以有一个或多个与它相关联的多模态属性值，这些属性值提供了关于实体的额外信息。

N-MMAKG

多模态数据本身被当作知识图谱的实体。这意味着图像、视频或声音文件等可以直接作为知识图谱中的节点，并且可以与其他实体（比如人或事件）建立关系。

A-MMAKG更适合于那些需要快速检索特定实体信息的应用，如产品目录或人物百科， N-MMAKG更适合于需要深入分析实体间复杂关系的场景，如学术研究、历史档案或多模态内容推荐系统。有时，这两种方法也可以结合使用，以发挥各自的优势并弥补潜在的不足。

随着人工智能技术的不断进步，未来的档案检索将更加便捷化、智能化、个性化，为社会公众、企事业单位提供更为丰富、精准的档案信息服务。我们相信，通过不断的技术创新和跨学科融合，多模态档案一体化智能检索必将开启知识发现的新篇章，为档案资源的开发利用做出更大的贡献。

【End】

接下来，见证奇迹，让我们一起观看多模态档案一体化智能检索系统演示并参与测试。

数字罗塞塔计划

将在05月18日 14:00 直播

预约

走进企业：见证 AI+档案的奇迹时刻

数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明，我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见，共同为人类文明的传承而努力奋斗！

关注我们 -数字罗塞塔计划-

多模态档案一体化智能检索研究（下篇）

热搜

热门跟贴

热搜

热门跟贴

相关推荐

以投石车进攻黎巴嫩，国内47万人逃亡，极端正统犹太人被抓壮丁

便宜又保价，你的购物新选择

1983年，王学成驾机叛逃台湾真实影像，邓丽君亲自接见合影留念

1991年中美谈判，美国人称中国人是小偷，吴仪：我们在和强盗谈判

缝制新衣服！米娜纪录片后续683集，52万托曼的加工费（下）

霍贾特母亲反对小妹法尔扎内提出的离婚# 纪录片解说

1972年外国导演拍摄的上海影像：因此还被批评，影像被禁播几十年

岳父上午刚被火化，下午女婿就接到电话，女婿：差点吓死

外国1972年拍的中国纪录片，曾被禁播30多年

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

1992年真实影像，美总统老布什在日本国宴呕吐，因日军的禽兽行为

1982年阿根廷空军封神之战：一弹击沉英国最先进战舰，场面震撼！

6年没提干的老兵，一路逆袭为上将，他和刘源联手整顿纪律

90岁抗日老英雄，档案烧毁无法享优待，来博物馆后：这照片上有我

1937年四行仓库保卫战中，八百壮士机枪扫射日军真实录像

1946年，党卫队副总指挥弗兰克被执行绞刑，国际儿童节因他而来

松毛岭大战有多惨烈？越南老兵：吃完干米伴盐巴，准备死亡

2008年女死刑犯郭爽，判死刑被执行枪决前，因记者一句话喜极而泣

70年代的绝版珍贵纪录片2，从前车马很慢，笑容很真

1944年真实录像，3。5万美英伞兵被德军当鸟打，1。7万人落地成盒