最新国际文本检测权威榜单发布：中国包揽前五|ocr|算法

原标题：最新国际文本检测权威榜单发布：中国包揽前五，云从科技夺冠

澎湃新闻见习记者张唯

光学字符识别（Optical Character Recognition，以下简称OCR）是指分析图像从而获取文字信息的过程，不少智能手机中的名片扫描软件就有这一功能。2018年11月20日，OCR领域的重要指标——国际文档分析与识别大会（ICDAR）测试集被再次刷新，中国高校及企业包揽ICDAR2015排行榜前五，依次为云从科技（Pixel-Anchor）、南京大学与南京理工大学（PSENet）、旷视科技（Mask Text）、商汤科技（FOTS）、阿里巴巴（IncepText）。

国际文档分析与识别国际会议 (International Conference on Document Analysis and Recognition，ICDAR)是由国际模式识别学会(IAPR)组织的专业会议之一，专注于文本领域的识别与应用。为了提高自然场景的文本检测和识别水平，国际文档分析和识别会议（ICDAR）于2003年设立了鲁棒文本阅读竞赛（“Robust Reading Competitions”）。至今已有来自89个国家的3500多支队伍参与。Google、Microsoft、Amazon、Facebook、北京大学、中国科学技术大学、腾讯、搜狗等均曾参与其中。

鲁棒文本阅读竞赛的测试数据集一直在网上公开，可以随时提交结果，是自然场景文本检测行业中检验算法的测试数据集。ICDAR2015和ICDAR2017 MLT就是其中两个测试子集。

澎湃新闻采访了目前位于ICDAR2015榜单第一名的云从科技。云从科技研究院自身算法工程师李源介绍，CDAR2015和ICDAR2017 MLT是自然场景文本检测领域的权威数据集，“基本上所有文章都会在上面检测”。

CDAR2015榜单（2018年11月20日）。F值代表精度和检出率的调和平均数，也是排名的根据，F值越大，检测结果越优。

他为记者解读了这份榜单，精度（Precision）代表检测结果中正确文本的比例；检出率（recall）则反映被检出文本与图片文本总数的比例，能够体现是否漏检了文本。为了检测算法的效果，需要综合考虑精度和检出率，而F值正好代表精度和检出率的调和平均数，也是排名的根据。

需要注意的是，这里提到的自然场景文本检测并不等同于文本识别，前者不具备识别文字的功能，而是指在图片中检测出文本。

李源表示，2018年11月20日，云从科技在预印本网站arXiv上发表了最新论文成果，该论文提出了用于自然场景文本检测的Pixel-Anchor框架。论文发表之前，他们在国际文档分析与识别大会发布的ICDAR2015和ICDAR2017 MLT数据集上检测了Pixel-Anchor算法，并刷新了ICDAR2015的最佳成绩。

据悉，ICDAR2015是纯英文文本检测数据集，ICDAR2017 MLT则包含了拉丁文、英文、中文、韩文、日文、阿拉伯文等9种文字。云从的Pixel-Anchor算法在ICDAR2017 MLT综合榜单中排名第四，排名前三的三家国外机构没有提交公开论文。

ICDAR2017 MLT综合榜单（2018年11月20日）（带*号表示没有发表公开论文）

除去没有发表公开论文的几家机构，ICDAR2017 MLT数据集前五名及框架名称分别是云从科技（Pixel-Anchor）、阿里巴巴（ATL-cangjie）、商汤科技（FOTS）、旷视科技（EAST++）、南京大学（PSENet_NJU）。

ICDAR2017 MLT的中文榜单中，云从科技排名第一，商汤科技位居第二。

ICDAR2017 MLT中文榜单（2018年11月20日）

自然场景文本检测案例

但相较于传统的文本检测OCR，自然场景中的各种商品、布景或自然场景图片中的文本检测与识别面临着复杂背景干扰、文字的模糊与退化、不可预测的光照、字体的多样性、垂直文本、倾斜文本等挑战。与针对高质量文档图像的传统OCR相比，自然场景文本检测能在更宽泛的领域中应用，例如照片分析、车牌识别，图片广告过滤，场景理解，商品识别，街景定位，票据识别等。