金融界 2025 年 1 月 8 日消息,国家知识产权局信息显示,上海库帕思科技有限公司申请一项名为“基于语料清洗的文本解析方法、设备、介质及产品”的专利,公开号 CN 119250058 A,申请日期为 2024 年 9 月。

专利摘要显示,本申请实施例涉及自然语言处理领域,公开了一种基于语料清洗的文本解析方法、设备、介质及产品。包括获取文本数据,对所述文本数据进行预处理,得到第一语料数据;对所述第一语料数据进行文本清洗,包括通过自然语言处理模型进行字符清洗和通过机器学习算法进行语义清洗得到第二语料数据;对所述第二语料数据进行信息提取,包括通过文本解析工程包提取文本信息;通过对所述第二语料数据中的图片和表格进行识别分割,提取图片信息和表格信息;对所述文本信息、图片信息和表格信息按照所述文本数据的逻辑结构进行重构,得到第三语料数据。可以至少用以解决对于文档数据解析能力不足的问题。

天眼查资料显示,上海库帕思科技有限公司,成立于2024年,位于上海市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本20000万人民币。通过天眼查大数据分析,上海库帕思科技有限公司参与招投标项目11次,专利信息6条。

本文源自:金融界

作者:情报员