自然语音处理（NLP）系列（四）——命名实体识别 (NER)|元数据|命名实体识别|汉语|英语

命名实体识别是自然语言处理中的热点研究方向之一。在问答系统中，尤其是任务导向的问答的第一步就是命名实体识别，只有先识别出实体才能做下一步的槽填充。

什么是命名实体识别？

命名实体识别（NER），又称为“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、专有名词、机构名等。命名实体识别自然语言处理中的一项基础关键性任务，是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具。一般来说，命名实体识别的任务是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）命名实体。

命名实体识别（NER）的过程组成

命名实体识别过程组成通常包括两部分：

（1）实体边界识别。

（2）确定实体类别（人名、地名、机构名或其他）。

英语中的命名实体具有比较明显的形式标志，即实体中的每个词的第一个字母要大写。因而实体边界识别相对容易，任务的重点是确定实体的类别。和英语相比，汉语命名实体识别任务更为复杂，而且相对于实体类别标注子任务，实体边界的识别更困难。

命名实体识别的方法（NER）

从模型的层面来看，可以分为：基于规则的方法、无监督学习方法和有监督学习方法。

基于规则的方法

依靠人工制定的规则，规则的设计一般基于句法、语法、词汇的模式，包括特定领域的知识。当词典的大小有限时，基于规则的方法可以达到较好的效果。这种方法具有高精确率和低召回率的特点。

无监督学习方法

利用语义相似性进行聚类，从聚类得到的组当中抽取命名实体，通过统计数据推断实体类别。

基于特征的监督学习方法

可以表示为多分类任务或者序列标注任务，从数据中学习。

命名实体识别（NER）的难点

（1）汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符，命名实体识别的第一步就是确定词的边界，即分词。

（2）汉语分词和命名实体识别互相影响。

（3）不同的命名实体具有不同的内部特征。

（4）除了英语中定义好的实体，外国人名译名和地名译名是存在于汉语中的两类特殊实体类型。

（5）现代汉语文本，经常出现中英文交替使用，这时汉语命名实体识别的任务还包括识别其中的英文命名实体。

景联文科技支持NLP标注业务

景联文科技作为长三角地区规模最大的AI基础数据服务商，自研数据标注平台，涵盖了绝大多数主流标注工具，支持NLP标注业务，包括OCR转写、文本信息抽取、NLU语句泛化等标注。

案例

一、需求：对文本数据进行命名实体标注，标注总数18万条。

二、项目难点：1）命名实体识别标注内容涉猎广难度大，对标注人员素质能力要求高。2）文本类型多、场景多、篇幅长。3）准确率要求99%，工期紧张。

三、解决方案：1）配备3年以上NLP标注项目管理经验的项目经理和标注团队。2）安排标注团队对项目背景、目的、规则、注意事项、难点、平台操作、项目要求（准确率、日产量）进行培训和考核，考核成绩前60%的人员进入正式任务。3）根据项目要求、基于WBS原理将项目按照其内在结构和实施过程的顺序逐层分解成树状图，形成相对独立、易于管理和检查的项目各单元，落实责任人，确保标注质量。

景联文科技培养了930人的全职标注团队，可为NLP领域提供数据采集和数据标注服务，根据客户需求迅速调配有相关经验的标注员，减少与项目的磨合时间，降低沟通成本；支持7*24小时的客户咨询服务，为客户配备专门的客户经理对项目进行全方面的对接；设有三重标注质检，客户可在平台实时对已标注数据提出问题和建议，标注团队快速处理处理。

景联文科技提供的产品为全链条AI数据服务，从数据采集、清洗、标注、到驻场的全流程、垂直领域数据解决方案一站式AI数据服务，协助人工智能企业解决整个人工智能链条中数据标注环节的相对应问题。

景联文科技｜AI基础数据服务｜数据采集｜数据标注｜假指纹制作｜指纹防伪算法

助力人工智能技术加速数字经济相关产业质量变革，赋能传统产业智能化转型升级

文章著作权归景联文科技所有，商业转载请联系景联文科技获得授权，非商业转载请注明出处；图片源自网络，如有侵权请联系我们进行删除。