金融界2025年5月14日消息,国家知识产权局信息显示,图观(天津)数字科技有限公司申请一项名为“一种文档信息抽取方法”的专利,公开号CN119964170A,申请日期为2025年4月。
专利摘要显示,本发明提供了一种文档信息抽取方法,包括:获取待解析文档;使用文档结构解析模型解析文档中不同的元素,给出元素的识别标框;对于解析出的页眉、页脚、二维码、插图、商标部分,将其标框范围内的图像处理成空白图像;对于解析出的印章部分,如果印章和印刷文字有重合,使用算法将印章部分去除,保留印章盖住的文字部分,将去除印章后的文字部分替换到原始图像的印章位置;提取处理后的文档图像中的印刷体、手写体,识别文档图像中的印刷体文字、手写体文字;结合原始表格、印刷体文字、手写体文字在文档图像中的位置,将识别出的文字拼装在一起;基于生成式语言大模型,设计提示词,生成所需提取的结构化数据,并以固定格式输出。
天眼查资料显示,图观(天津)数字科技有限公司,成立于2019年,位于天津市,是一家以从事科技推广和应用服务业为主的企业。企业注册资本5000万人民币。通过天眼查大数据分析,图观(天津)数字科技有限公司参与招投标项目105次,专利信息6条,此外企业还拥有行政许可6个。
本文源自:金融界
作者:情报员
热门跟贴