金融界2024年10月18日消息,国家知识产权局信息显示,武汉天喻信息产业股份有限公司申请一项名为“基于知识增强的文本主题抽取方法、装置及电子设备”的专利,公开号CN 118779447 A,申请日期为2024年6月。
专利摘要显示,本发明公开了一种基于知识增强的文本主题抽取方法、装置及电子设备,该方法包括:对待抽取文本进行前处理;对前处理后的待抽取文本进行篇幅判断,将待抽取文本分为长文本和短文本;当待抽取文本为长文本时,对前处理后的待抽取文本进行词嵌入处理,得到待抽取文本特征;将待抽取文本特征与获得的与待抽取文本特征匹配的领域特征进行特征融合,得到融合特征;对融合特征进行主题抽取,得到文本主题;当待抽取文本为短文本时,对前处理后的待抽取文本进行关键词抽取,得到文本主题。本发明提出了一种行业通用且面对不同规模不同质量文本皆有效的主题抽取方法,解决了相关主题抽取模型无法区分领域特征、鲁棒性不强,且过于依赖文本特性的问题。
本文源自:金融界
作者:情报员
热门跟贴