医学数据挖掘评测任务发布|中华医学会|互联网|医学|数据挖掘|科学

当前，建设“健康中国”已成为国家战略，公众的健康意识日益增强，对健康信息的需求不断提升。互联网逐渐成为公众获取健康信息的重要渠道，特别是新冠肺炎疫情期间，居家隔离的大众因线下医疗资源获取不便，更加依赖互联网寻求健康医疗信息与服务。各大健康医疗平台也借机推出在线问诊服务，使得线上问诊量大大增加——据《2020中国医生洞察报告（Hi Doctor）》显示，疫情期间线上问诊平台的访问量是疫情前平均访问量的4.6倍，问诊量是疫情前平均值的2.5倍。

面对日益增长的线上问诊需求，如何提升服务效率，为大众提供更为优质的体验，已成为互联网健康医疗服务的重要研究方向。

而这背后的重要技术，就得提到自然语言处理技术 ( Natural Language Processing, NLP )了。

NLP技术为医学领域带来巨大机遇

NLP技术作为人工智能的一个重要分支，主要聚焦于对非结构化数据的解释和处理。若将NLP技术应用于日志、说明、博客及社交媒体等文本数据的挖掘中，可以释放出非结构化数据的更大潜力，实现数据探索的更多可行性。相关调查显示，当前80%的医疗健康相关数据都存储在非结构化文本中，若不借助NLP技术，这些医疗健康相关数据的可读性和可用性都将大打折扣。

目前在医疗健康领域的NLP技术应用实践中，所采用的数据源范围也进一步扩大，不仅仅局限于电子病历等临床数据。随着线上问诊数据量的不断增加，医患之间的对话、线上诊疗平台的问答数据也成为了重要的待挖掘数据。

其中，作为首道工序——对于患者提出的问题进行精准分类愈发受到重视。问题的准确分类，不仅可以提高患者的实际用户体验，搭建患者与医疗术语之间的桥梁，其高精准性也将为之后的医疗健康信息检索与推荐奠定良好的基础，有助于医务工作者对患者进行更好的健康教育，扫除医患间的沟通障碍，构建更为优质的医疗生态环境。

推荐活动来啦

为了更好地推进数据挖掘、自然语言处理等方法在医疗领域的应用，中华医学会医学信息学分会于2020年9月7日正式上线医学数据挖掘算法评测大赛，并以大家极为关注的医疗 NLP 问题为竞赛主题。本次中华医学会医学信息学分会医学大数据与人工智能学组将开放专业标注的公众健康问句数据，邀请国内相关领域的研究者参与健康问句分类任务的测评，希望能够通过跨学科合作的方式，与各业人士共同推动医学自然语言问题的研究。

本次比赛需要参赛者基于与健康有关的中文问题，对这些问题的主题类别进行分类，共包含 6 个大类：A 诊断、B 治疗、C 解剖学/生理学、D 流行病学、E 健康生活方式、F 择医。由于一个中文健康问句往往归属于多个主题类别，因此该自动分类任务是一个多标签分类的问题（Multilabel Classification）。通过评测参赛团队所构建算法在测试集上的 F1-score 来衡量团队的表现。

在比赛中晋级的团队需以论文形式提交研究结果，中华医学会医学信息学分会不仅将为优胜团队颁发证书，其优秀获奖论文也将推荐发表在《医学信息学杂志》、《中华医学图书情报杂志》等核心期刊。

为了帮助不同学科背景与技术基础的研究者更方便的参与本次测评任务，将配合本次竞赛推出医学数据挖掘算法评测训练营与医学数据科学专场直播交流。

训练营为技术基础较薄弱，但对医疗领域有兴趣的用户提供新手入门教程，通过平台内置的K-Lab工具与案例式教学，即可快速上手医学信息学相关的分析以及医疗文本的研究，实现“从入门到出论文”的蜕变，立刻走上医疗科研进阶之路。

借本次大赛的契机，来自中国医学科学院医学信息研究所、清华大学福州数据技术研究院、强生医学院的三位资深专家老师将共同参与「医学数据科学专场直播交流&圆桌会议」，分别从科研机构、高校、企业视角下分享医学与数据科学洞察，探讨医学数据科学应用前景、拓宽参赛思路、激发医学数据科学领域创新新思路。直播讲座时间、直播链接届时将在大赛官方交流群（QQ群号：592901247）中公布，欢迎提前入群交流。

本次医学数据挖掘算法评测大赛的报名时间为2020年9月7日至 2020年9月30日，感兴趣的伙伴们可以点击原文参与报名，更多信息详见和鲸社区-医学信息与临床统计专区。

技术小白不用急，也可快速入门

我们建了一个知识专区，超多干货持续更新