Python实现自动问答系统(毕设源码)|py|python|字符串|源码

平台

Windows 10 x64
Python 3.7
Neo4j community 3.5.20

运行

1、确保安装所需依赖

pip install -r requirements.txt

注：python-Levenshtein 如果安装不成功，则可以下载对其进行离线安装。

2、构建知识图谱

修改const.py文件中连接数据库使用的URI，USERNAME和PASSWORD的值。然后执行：

python build_cakg.py

运行大约需要2~5分钟。

3、可以使用两种方式运行：

①. 运行命令行端

python run_cmd.py

普通问题的回答以字符串的形式给出；带有图表的回答，图表会被渲染至results文件夹中。

②. 运行web端（效果图见下文）

python run_web.py

带有图表的回答和普通回答一样会被渲染至web页面中，同时也被保存至本地results文件夹中。

注1：最好使用谷歌浏览器（Google Chrome）；

注2：生成图表的文件夹地址可以在const.py中更改CHART_RENDER_DIR。

4、have fun!

简介

1、项目结构

2、数据组织

①. 基本构想

通过浏览公报发现：

每一年所涉及的目录大差不差，有时多有时少，或者只是改个名字；
目录中涉及的指标每年都有一定的变动，而且某些指标里面嵌套指标，还有些指标中给出了各地区的组成值；
指标的值有数值类型，也有字符串类型，有的有单位，有些则没有，而且有些单位在某些年份还不同。

基于上述几点，我将知识图谱的构建以年份为中心展开，将各个目录、指标等等实体作为知识图谱的结点。结点与结点之间相连接的关系称为结构关系（详细见下文），那么将每个年份结点到各个指标和地区的关系称为值关系（详细见下文）。

将结构和值两种关系拆开：

从结构关系来看，不用一个年度录入一个年度的所有指标，每个年度中肯定有重复指标，这样避免了数据冗余。若每年的指标位置基本不变，则上述做法直接可行，但实际上指标出现的位置可能每年都飘忽不定，所以若直接按上述做法会出现这种情况：

假设2012年指标C1包含指标A、B，指标C2包含指标C；2013年指标C1包含指标A，指标C2包含指标B、C；则其结构关系为:

其中橙色的边是2012年特有的，蓝色的则是2013年特有的，而黑色的是它们共有的。但在知识图谱中这些边没有颜色之分，是按上图整个结构存储的，这就造成了一个父子结构关系错乱的问题，比如：我要查找13年指标C1包含的所有指标，则A和B都会被返回，而实际上B不应该被返回。

为了解决上述问题，并且不增加任何额外的关系，我为每个关系引入了一个生命周期属性life。这个属性运用了掩码的思想，每个年份维护自己的掩码（运行构建知识图谱脚本时会被自动生成），在遇到上述问题时，拿来和关系中的life做与运算，若结果不为0，就说明此年份包含此指标，反之则不含。

从值关系来看，问题中也是直接给出年份和指标名称，这样也方便查询。

部分结点间的关系如下图：(橙色为年份，棕色为目录，蓝色为指标)

部分结点间的关系如下图：(橙色为年份，棕色为目录，蓝色为指标，红色为地区/机场/公司集团，下同)

②. 知识图谱实体类型

③. 知识图谱实体关系类型

④. 知识图谱属性类型

3、问题预处理

主要指年份和指标两个角度的预处理，此部分详见lib/complement.py。

①. 年份角度对问题中的年份进行替换，方便特征词识别，例：

11年 -> 2011年两千一十一年 -> 2011年 11-15年 -> 2011年,2012年,2013年,2014年,2015年 13到15年 -> 2013年,2014年,2015年

13年比前年 -> 2013年比2011年 15年比大大前年 -> 2015年比2011年

16年比3年前 -> 2016年比2013年 16年与前三年相比 -> 2016年与2015年,2014年,2013年相比 ......

②. 指标角度对问题中的指标名进行替换，避免因错字漏字而特征词识别不成功。通过Levenshetin算法实现对指标名的模糊查询。例：

游客周转量 -> 旅客周转量

4、问题分类

问题的分类是基于特征词的分类，使用ahocorasick算法。

下表给出的是各种问题的类型，更详细的内容请参见项目demo中的demo1~4.ipynb。

5、Web APP

web端使用Flask构建，采用前后端分离的方式。问答界面较为简洁。但可实现以下功能：

回答带有的图表可以直接渲染至页面；
回答中某些关键词以tooltips的形式进行了解释说明（关键词取自年报的注释部分）。

源码文件预览

1、点击下方图片拉到文末点喜欢作者赞赏2元

2、我核实后会直接回复你源码下载链接，如未能及时回复可以添加小二微信，小二直接用微信发你~

不是机器人

耐心等待，不要着急

Python实现自动问答系统(毕设源码)

热搜

热门跟贴

热搜

热门跟贴

相关推荐

俄罗斯赚了谁的钱？

吉林市委编制办回应“吉林市拟组建锅包肉办公室”：挂牌机构，不增加额外编制

驻叙美军每天用10多辆卡车将叙利亚粮食运往境外，中方回应

闹大了！重庆西站“优先权”风波：退伍军人怒怼车站人员

那个说“帮助我是你们中国人的义务”的李春红，死了

全国24个“新鹤岗”，白菜房价收留年轻人

《人民日报》发文：各级政府要习惯过紧日，管住“一揽子”防止“开口子”

江水上涨，武汉江滩大蛇爬上监控杆！专家：蛇在高处避水属应激反应

钱去哪儿了？钱，已经被提前造掉了！

张志杰姐姐回应世界羽联公告：追究到底 请对生命负责

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

免费!国产大模型编程助手豆包MarsCode上线,还有登录即用云端IDE

网传某高校为保就业率公然造假，向毕业生提供虚假岗位，辅导员进行配合

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

一男子在北京房山爬山后失联，知情人士：已找到，无生命体征

监控下当班保安突然面朝下重重摔倒 曝物业很快通知他办手续自离

江西暴雨男子家中进水半米深，一群鱼游到家里出不去！

从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

最新！俄宣布控制乌东战略要地

最新！韩媒：韩国会请愿网站弹劾尹锡悦请愿文已超100万人联署

张志杰姐姐回应世界羽联公告：追究到底请对生命负责

监控下当班保安突然面朝下重重摔倒曝物业很快通知他办手续自离