国家知识产权局信息显示,汉王科技股份有限公司、北京科技大学申请一项名为“复杂图文检测提取方法、装置、电子设备和存储介质”的专利,公开号CN121459334A,申请日期为2026年1月。

专利摘要显示,本申请实施例提供了一种复杂图文检测提取方法、装置、电子设备和存储介质。所述方法包括:对目标文本图像进行基于查询的字符级检测,获取字符级别的掩码、类别预测结果和更新后的查询向量;基于掩码、类别预测结果和查询向量,获取各字符的多模态嵌入向量,多模态嵌入向量包括:位置嵌入向量、语义嵌入向量和视觉嵌入向量;以位置嵌入向量作为位置约束,以视觉嵌入向量作为视觉约束,构建各字符的局部子图;联合语义嵌入向量,基于局部子图推理字符的连接关系;基于各字符的连接关系,得到目标文本图像的文本检测结果。本方法可以有效解决重叠、粘连,混排等场景的错误分割问题,有效提升了文本检测准确度和精度。

声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。

本文源自:市场资讯

作者:情报员