史元春教授：智能文本输入技术|人机交互|信号|史元春|大模型|智能文本输入技术|算法|键盘

文本输入是人机交互中最基本的任务之一，是人向计算机表达交互意图和传递交互指令的重要方式，是每个终端用户必需的交互方式。一般而言，文本输入指用户通过特定的交互接口，向计算机输入文字、符号等信号的过程。其中，文本信息往往包括字母、数字、符号等。当前，文本输入的主要方式包括语音输入、手写输入和键盘输入(含物理键盘、软键盘、虚拟键盘等)。长久以来，键盘和鼠标并列成为人们使用计算机时最主要的输入设备。

▲ 不同的键盘接口形态

近年来，随着多模态传感和人机交互技术的发展，触摸屏（如曲面屏/折叠屏手机）、可穿戴设备（如智能手表、虚拟现实/增强现实眼镜）等新型输入输出设备快速普及，都使得人机交互的场景和方式越发变得自然和丰富。同时，随着人工智能的发展和大语言模型的广泛应用，文本作为提示词（Prompt）的主要承载形态，其输入效率与便利性更加深入地影响到了今天的各类计算和智能系统。然而，与键盘、鼠标相比，这些新型人机界面上接口尺寸小、很难符合人体工学，人的输入信噪比降低，同时反馈信道受限（如物理键盘上自体感知很直接的触觉反馈缺失，几乎都要靠视觉在手的输入和屏幕的输出之间切换），反而使人机交互的效率显著降低，输入速度降低，更难做到盲打。

今天的一些商业文本输入法，已经可以在用户偶然敲错按键时，对输入结果进行纠错。然而，这种主要依赖用户熟练度、输入纠错能力弱的传统文本输入方式还无法有效满足新型自然交互的需求，如何设计实现兼顾交互自然性和高效性的文本输入技术，成为研究者关注的问题。

为了实现这一目标，需要为文本输入算法赋予“智能”，使其具有更加灵活和准确的输入推理能力。

▲ 基于自然交互意图的贝叶斯推理引擎和计算框架

文本输入的优化涉及用户行为建模、意图理解算法等连续多方面相关联的研究内容，所采用的方法和技术大多可以推广应用到其他交互接口技术中。针对自然交互接口，可以扩展为基于自然交互意图的贝叶斯推理引擎和计算框架，如上图所示。这一计算框架的意义在于明确优化过程中的关键问题及其相互关系，为优化自然交互技术提供指导性方法和步骤。核心问题是将交互自然性的优化问题拆解为更易于求解的子项，通过求解子项问题，最终优化交互自然性，这就需要计算框架对于交互自然性的本质有着正确的建模和表示。

自然交互意图的贝叶斯推理引擎从交互意图的表达过程入手，探寻影响交互自然性的关键因素，将交互意图的表达过程拆解为心理模型、动作模型和意图模型三部分。这个分解可以看成对人机交互领域内经典任务模型GOMS 的扩充，但可泛化到多种模态的交互方式。这三个步骤描述了交互意图的表达和处理过程，通过贝叶斯推理相互关联地构成了交互自然性优化的整体框架。

自然交互意图的贝叶斯推理引擎实现了小数据样本上可解释的高正确率意图推理。该计算框架通过引入心理认知匹配度，基于任务信息熵构建的交互路径生成方法，实现了自然性、高效性和适应性的融合，以及心理、行为和情境的计算统一，在多项关键交互技术上得到了有效性验证。

《智能文本输入技术》（史元春等著. 北京 : 科学出版社, 2024.12）结合作者在文本输入领域多年的研究工作，针对智能文本输入这一主题的相关概念和前沿技术进行了系统的介绍。内容围绕基于自然交互意图的贝叶斯推理引擎和计算框架，涵盖了文本输入中的点击行为建模、离散输入信号的意图推理方法、连续输入信号的意图推理方法，以及文本输入技术的扩展与应用等方面，并通过对触屏软键盘、空中虚拟键盘、智能终端、可穿戴设备、虚拟/增强现实等典型交互接口上的文本输入应用样例进行介绍和分析，阐述如何针对具体的交互接口设计实现智能文本输入技术，该技术框架下实现的文本输入技术可在低信噪比的输入数据上大幅提升输入的正确率，输入速度显著提升。本书内容全面新颖，学术性强，结构合理清晰，是作者多年研究成果的总结，多数技术成果已经成功实现到手机、眼镜等终端产品上，技术性能国际领先，对越来越多样的用户终端输入接口的设计实现和文本输入性能的优化、以及人机交互学习和研究，本书具有很高的参考价值。

全书共12 章，

第1 章介绍文本输入研究的背景和基础知识，包括自然人机界面上的文本输入接口的演变、经典的贝叶斯输入意图推理方法，以及对文本输入技术的常见评测方法等。
第2～4章针对文本输入中的点击行为建模这一重要过程进行介绍，探讨不同的界面和输入方式对其的影响。文本输入过程是由人逐一输入字符来实现的，在广泛应用的触摸屏上，由于触觉反馈的缺失，人们难以像在物理键盘上一样进行快速、准确的按键点击。因而，对人们的点击行为进行建模，有助于智能文本输入算法拟合和补偿人的行为偏差，从而实现更高效、准确的输入。
第5～8 章介绍针对离散输入信号的意图推理方法，以及其使能的不同输入方式。其中离散输入是人们生活中最熟悉的文本输入方式，其特点是用户输入每个字符时，其传感信号是离散的。例如，在触摸屏上点击按键时，输入信号为不同位置的点击事件，手指在不同按键间的移动过程并不会产生屏幕上的触摸信号。离散输入信号的特点是其对输入进行分割，能较为准确地判断输入的字符数量。但缺失了部分移动行为信息，因此，给输入意图推理带来了挑战。
第9～11 章介绍针对连续输入信号的意图推理方法，以及其使能的不同输入方式。连续输入信号广泛存在于新型交互接口上，如悬空操作、可穿戴设备传感等。其特点是用户的完整输入行为都能被传感和记录，但挑战是需要对“点击”行为和“移动”行为进行准确的区分。
第12 章对本书所介绍方法在更广泛的人机交互任务中的推广性以及在实际商业产品中的应用价值进行讨论。

本书作为系统全面展示文本输入技术及其实现原理的专著，可为相关领域研究人员和技术人员全面了解文本输入技术特点与核心提供有效参考。

本文摘编自《智能文本输入技术》（史元春等著. 北京 : 科学出版社, 2024.12）一书“前言”“第12 章讨论与总结”，有删减修改，标题为编者所加。

(新一代人工智能理论、技术及应用丛书)

ISBN 978-7-03-080651-2

责任编辑：孙伯元

本书针对文本输入这一最基本的人机交互任务，较全面地介绍了当今的智能文本输入技术，内容涵盖了文本输入中的点击行为建模、离散输入信号的意图推理方法、连续输入信号的意图推理方法，以及文本输入技术的扩展与应用等方面，并通过对触屏软键盘、空中虚拟键盘、智能终端、可穿戴设备、虚拟/增强现实等典型交互接口上的文本输入应用样例进行介绍和分析，阐述如何针对具体的交互接口设计实现智能文本输入技术。本书内容全面新颖，学术性强，结构合理清晰，是作者多年研究成果的总结。

（本文编辑：刘四旦）

一起阅读科学!

科学出版社│微信ID：sciencepress-cspm

专业品质学术价值

原创好读科学品位

科学出版社视频号

硬核有料视听科学