近期,远传科技发明的《文本相似度模型的训练方法、系统、装置和介质》、《一种用于智能问答的知识图谱自动化构建方法及系统》《一种FAQ相似问题生成方法及系统》、《一种领域语义网自动构建方法及系统》、《多通道信息特征融合的学业预警方法、系统、装置和介质》荣获国家发明专利授权。
远传科技一直高度重视产品技术创新,扩建科研队伍,加大研发投入。凭借精准的研发投入和雄厚的技术沉淀,迄今为止,远传科技已获得专利及知识产权相关证书105项,成绩斐然。
远传科技始终坚持创新驱动发展的原则,将产品创新与实际应用紧密结合,聚焦在自然语言处理(NLP)、深度学习、知识图谱、数据挖掘等核心技术领域。
今天我们来讲讲其中一项发明专利:《文本相似度模型的训练方法、系统、装置和介质》。
文本相似度,顾名思义是指两个文本(文章)之间的相似度,相似程度的评价有很多角度:单纯的字面相似度(例如:我和他 v.s. 我和她),语义的相似度(例如:爸爸 v.s. 父亲)和风格的相似度(例如:我喜欢你 v.s. 我好喜欢你耶)等等。
可以说,文本相似度是自然语言处理(NLP)中必不可少的重要环节,几乎所有NLP的领域都会涉及到!在搜索引擎、推荐系统、论文鉴定、机器翻译、自动应答、命名实体识别、拼写纠错等领域有广泛的应用。
虽然已有布尔模型、概率模型、向量空间模型等文本表示模型,相似度度量及距离度量等相似度计算方法,但在效率及性能等方面还存在一些无法忽视的问题,比如:这些模型存在无法表现特征项的出现顺序、向量维度高、计算效率低和模型鲁棒性差等问题。传统算法无法识别意思相似或者相关的词语,而且文本中的核心关键词的重要程度与其他非关键词重要程度一样,这些都对文本相似度准确率的提高造成了很大的困扰。
远传科技提供的文本相似度模型的训练方法、系统、装置和介质,通过对训练语料进行划分,得到训练集、特征向量、重要性特征、训练数据的完全特征表示、噪音数据的完全特征表示、输入特征向量,基于输入特征向量完成文本相似度模型的训练。解决了文本相似度计算存在的准确率低和鲁棒性差的问题,实现了利用对抗的思想,将噪音数据的特征融入训练数据中来扰动训练数据的拟合,进一步结合特征向量和重要性特征,提高了文本相似度模型的的鲁棒性和准确率。从而解决相关技术中文本相似度计算存在的准确率低和鲁棒性差的问题。
文本相似度模型发明专利的取得,有利于远传科技持续推动自然语言研发生产,提升产品的技术含量,巩固公司在智能交互行业领域内的知识产权竞争优势,增强核心竞争力。
热门跟贴