金融界2024年8月8日消息,天眼查知识产权信息显示,东方财富信息股份有限公司取得一项名为“基于行为数据统计的中文拼写纠错方法“,授权公告号CN113901795B,申请日期为2021年10月。

专利摘要显示,本发明涉及一种基于行为数据统计的中文拼写纠错方法,通过离线挖掘模块从用户日志中挖掘语言模型、概率转换矩阵、用户输入权重,利用概率转移矩阵对现有的公开混淆集进行过滤,获取面对用户的有效混淆集;实时计算模块基于离线挖掘模块实现拼写纠错,实时将用户输入给定的文本在挖掘语言模型的条件概率,与根据用户输入给定文本依据用户的有效混淆集形成的候选文本在挖掘语言模型的条件概率进行高低对比,实现拼写纠错。考虑应用的检索场景,利用带有输入类型的概率转移矩阵,解决了不同输入法的拼写纠错问题;利用概率矩阵提升了拼写纠错的准确率;利用有效混淆集和beam search,降低候选集的大小,从而提升了纠错的性能。

本文源自金融界