科大讯飞程坤：用AI技术引领输入方式新变革|手机|科大讯飞|程坤|讯飞|输入法

近日，讯飞输入法上线“智能拍照输入”功能，该功能基于科大讯飞新一代视觉A.I.技术，融合手写识别和机器翻译等技术，打造拼音、手写、语音之外的输入交互方式。关于讯飞输入法“智能拍照输入”功能的特点以及产品愿景，网易科技独家专访了科大讯飞输入法业务部总经理程坤。

除了键盘和语音，你还可以这样输入？

一款新产品的发布，或者全新产品功能的推出，作为用户来讲，最关心的莫过于其功能特点所在。关于讯飞输入法“智能拍照输入”功能特点，程坤将其总结为三点。

首先，在使用场景层面，讯飞输入法“智能拍照输入”基于科大讯飞的整体A.I.能力，扩展和延伸了文字扫描功能。用户通过“拍照”就能搞定各种复杂信息的录入，程坤介绍到，讯飞输入法“智能拍照输入”除了基础的文字识别之外，还可以通过拍照识别表格内容并生成可编辑的excel文档，对于包含文本外复杂信息的素材，也可将其恢复为word格式的可编辑文档，解决了多种办公场景的用户刚需。此外，在教育场景中，用户通过拍照，也可以将手写的数理符号、公式等内容转化为电子版，轻松完成输入。

其次，在识别的效果层面，除了对印刷体的识别，讯飞输入法还支持手写体识别，即使角度扭曲、图片模糊、超远距离，依然可以准确识别。语言方面，除了中文还支持英、日、韩、德等多种主流语种语言的识别输入，中英文混合识别。

此外，讯飞输入法“智能拍照输入”扩展了输入的智能性，其智能批改功能，用户通过简单的拍照操作就可以完成对小学数学多种题型的批改。

智能拍照输入是如何克服研发难题的？

针对以上几个产品特点，程坤也介绍了讯飞在研发过程中遇到的技术难点以及解决方案。

程坤谈到，图像识技术实际上也是一种感知智能，在产品研发过程中，需要借助海量训练的数据，而得到这些数据的渠道和方法尤为重要，“印刷体的数据在网上很容易找到，然而手写体由于不同人书写风格的不同，加以光线等影响因素，数据很难得到。”程坤表示。为了解决这个问题，讯飞通过自然场景的数据增强技术，采用人工智能技术生成批量训练数据，解决了前期数据量不足的问题。

同时，针对数学公式的识别，印刷体的识别相对较易实现，但手写体的识别，依然存在极大挑战。程坤介绍，由于数学公式涉及左右、上下等符号角标，考虑符号与符号之间较小的像素比，导致很多情况下难以区分。此外，不同人的书写习惯也存在很大差异。为了能提高数学公式的识别准确度，科大讯飞采用了基于树形结构建模的解决方案。首先从局部识别，区分符号大小，排除干扰因素，进而提取需要进行识别的主体，大大提升了识别效果。

人工智能技术让输入更快更准更聪明

谈到这一功能的研发初衷，程坤表示：“一开始是因为看到了各种各样的用户需求，比如很多人都经历过的想要把图片或者pdf，书报杂志、手写的会议纪要上的文字快速变成可编辑的电子版，或者购买、查看一些商品/物品使用说明是小语种，或者一些数学公式不知道怎么输入，当时就想，作为手机端高频应用服务的输入法，能否将这些用户需求一并考虑进来，扩大信息输入的外延，借助科大讯飞新一代视觉A.I.技术，让大家在不同应用场景下通过手机拍照功能实现文字信息一键录入，我们认为，输入法绝对不止是单纯的打字工具，更是一个集信息输入、查询、获取、娱乐于等各种功能的信息处理平台，希望能通过人工智能技术探索新的输入方式，满足用户不断变化的需求。”

在程坤看来，这也是整个讯飞输入法产品功能的研发动因，希望基于科大讯飞在人工智能领域的一系列积累，以及对于用户使用痛点的不断挖掘，从而不断提出可行性解决方案。“讯飞输入法现阶段的发展重点就是不断将AI技术融入到更多的使用场景中，为用户提供系统化的输入解决方案，满足用户在不同场景下的个性化输入需求。”

被问及讯飞输入法的产品愿景，程坤将其阐述为三个层次：场景化、人群多元化以及智能情感化。程坤谈到，例如用户在即时通讯和游戏时使用输入法，就存在明显的使用场景的差别，而对于不同的用户人群，例如学生、商务人士、老人等，又有基于不同使用需求的人群划分。“年轻人喜欢游戏、喜欢皮肤表情，而商务人士也许只需要高效输入。”程坤表示，基于此。讯飞推出诸如“长辈模式”、“无障碍模式”等，希望针对不同人群的使用习惯，满足他们的输入体验。

最后，程坤希望讯飞输入法在更智能的同时，可以拥有更加感性的使用体验。程坤认为，目前的用户与输入法的交互，更多的是一个被动的过程，讯飞输入法希望借助科大讯飞人工智能技术的持续发展和进步，朝着更快更准更聪明的方向迈进，使输入法产品演变为具备陪伴功能的情感化产品，最终进化成一个有情感、智能的助手角色。