国家知识产权局信息显示,山东亿云信息技术有限公司;山东数创共同体科技服务有限公司申请一项名为“一种基于目录信息的PDF文档多模态解析方法及系统”的专利,公开号CN121766307A,申请日期为2025年12月。
专利摘要显示,本发明涉及文档解析技术领域,提供了一种基于目录信息的PDF文档多模态解析方法及系统,包括:将PDF文档转换为图片后,提取每一页的文本数据;对于每一页,通过大模型判断是否为目录页;对目录页进行目录抽取;将非目录页按页码顺序拼接到一起,按换行符进行文本数据的分割,转换为数据表,并记录每一行的索引;按照目录顺序将目录和数据表每一行的文本数据进行匹配,如果文本数据包含目录信息则记录这个索引映射到这个目录,得到每个目录的索引列表;正序循环提取某目录的索引,与按逆序提取的前一目录的索引作差,找出第一个满足差值大于阈值的两个索引,作为目录的正文起始位置和终止位置。有效重建了文档的内在层级语义结构。
天眼查资料显示,山东亿云信息技术有限公司,成立于2011年,位于济南市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本4900.02万人民币。通过天眼查大数据分析,山东亿云信息技术有限公司共对外投资了7家企业,参与招投标项目1354次,财产线索方面有商标信息54条,专利信息106条,此外企业还拥有行政许可12个。
山东数创共同体科技服务有限公司,成立于2021年,位于济南市,是一家以从事科技推广和应用服务业为主的企业。企业注册资本1000万人民币。通过天眼查大数据分析,山东数创共同体科技服务有限公司共对外投资了1家企业,参与招投标项目9次,专利信息3条,此外企业还拥有行政许可6个。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
热门跟贴