国家知识产权局信息显示,合肥机数量子科技有限公司申请一项名为“一种多维度PDF文献解析和元数据提取方法”的专利,公开号CN121997922A,申请日期为2025年12月。
专利摘要显示,本发明公开了一种多维度PDF文献解析和元数据提取方法,涉及数据处理技术领域。本发明构建了一种分层、协同、自适应的混合解析框架。首先,对PDF文档进行预处理与分析,判定其语言与类型属性。继而,根据判定结果进行分流处理:对英文文本型PDF优先采用Grobid进行解析;对中文或图片型PDF则采用基于OCR引擎的解析方案。对于上述方法未覆盖的区域或低置信度元数据,创新性地引入基于大语言模型与多OCR投票机制的精炼提取策略以提升准确率。此外,方法还包括基于坐标映射的正文重组、基于三层递进规则的参考文献结构化解析等步骤。本发明实现了在控制成本的前提下,对PDF文献元数据、正文及参考文献信息的高精度、自动化提取。
天眼查资料显示,合肥机数量子科技有限公司,成立于2017年,位于合肥市,是一家以从事专业技术服务业为主的企业。企业注册资本627.4859万人民币。通过天眼查大数据分析,合肥机数量子科技有限公司共对外投资了8家企业,参与招投标项目27次,财产线索方面有商标信息33条,专利信息46条,此外企业还拥有行政许可6个。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
热门跟贴