文档智能，“AI改变生活”的新注解|上下文|命令提示符|小艺|管理器|翻译|调用

当代职场人，“随地移动办公”是一种常态。

前一秒还在city walk，下一秒掏出笔记本往台阶上一放、就地办公；候机室里，总有那么几个人直到登机的前一秒还在笔记本上敲字疾书。

这是信息爆炸、连接无处不在的现代社会，在给予人类生活方便之余，随手附赠的无奈。

合同签订前关键信息修改、稿件发布前的查漏补缺，种种突发状况，都让移动办公处理文档成为当下职场人的刚需。

手机屏幕越做越大，给人们在移动中阅读更长的文档提供了方便，但“处理”的步骤仍在困住职场人的手脚，随身携带的笔记本仍然是肩头沉重的负担。

大模型的到来给解放职场人的肩膀带来了可能，也给产学界攻克“难啃的硬骨头”——文档AI，带来了突破口。

难啃的硬骨头

1992年，Adobe联合创始人查尔斯·希莫尼发明了PDF，连同十年前微软的查尔斯·希莫尼发明的Word，联手开启了数字化办公的时代。

堆积如山的纸质文档工作被浓缩在一方屏幕之中，一度将人们处理文档的效率推向了新的层级。但两个查尔斯都不会想到，几十年后的现在，这些数字文档会反过来拖累职场人的工作效率。

工程师敲代码前需要阅读的技术文档动辄几百页，分析师写行业报告需要从几十、上百家公司财报中抽丝剥茧、获取趋势共性，物理世界的纸质文件化身为14寸屏幕堆不下的数字文档，同样可以淹没无数职场人。

人工智能发展几十年，产学界很早就试图用AI技术辅助人们处理文档工作。从最早的规则启发到神经网络引入权重和数据训练，基本的思路都是“人为归纳规则->转换为机器语言（函数和代码）->教授计算机规则”。

然而，随着人们需要在电脑上处理的工作范围越来越广，文档的复杂化发展没有尽头，有限的硬件算力和仍待完善的算法，都使得大部分文档智能不那么智能。

例如一旦文章过长或是包含的图文要素过多，文档智能给出的摘要常常不够准确，甚至和文档内容风马牛不相及；

或是用户希望针对某一问题在文档内容中找到相应的解答，文档智能虽然会给出答案，却不能溯源定位到原文，使得用户无法进一步确定答案的准确性。

同时，随着数字化深入到各行各业，文档类型越发繁杂，每一类文档对应一种处理规则，一种规则再对应一套算法的建立和后续的调试，整个流程逐渐变成了难以负担，并且不具备经济效益的繁重工作。

自动驾驶的难度众所周知，而文档AI面临的挑战并不比自动驾驶少。

一是数据。根据IDC口径，2018年-2025年，全球数据量将从33ZB到增长到175ZB，其中80%是非结构化数据[1]，包括图像、音频、传感器数据等，共同特点是没有统一格式、缺乏定义，难以表征；

二是理解能力。语言中的复杂语义、文档的结构化都需要更强的逻辑演绎能力来理解和解读，比如从“任务很困难，但小明坚持完成了”，推导出“小明持之以恒”，再比如一级标题和二级标题之间的递进、表格表头与数据的一一对应等。

三是专业性。尤其是在专业性极强的垂直行业，例如专业的论文，财经报告，律师卷宗等等，解读这类文档需要专业知识的长期积累。

直到大模型的出现，无需人工标注的数据和自监督学习机制，赋予了计算机自主进化的能力。

作为产学界最难啃的骨头之一，文档AI因此得到了突破的机会，HUAWEI Mate X6的系统级AI助手小艺率先作出了示范。

突破文献综述难题的创新探索

今年10月“原生鸿蒙”HarmonyOS NEXT正式登场，11月华为Mate品牌盛典，软件层焕然一新，再次进化的智能体小艺聚焦了视线。

HUAWEI Mate X6的大屏和轻便为移动办公而生，HarmonyOS NEXT将AI与操作系统深度融合，赋予了小艺处理复杂文档时的突破性表现。

学术论文是典型的复杂文档，其中包含大量抽象概念，混合艰深晦涩的文字表述，加上庞杂的数据图表，依靠肉眼阅读、人脑理解都费时费力。

但论文写作逃不开阅读、引用大量前人论文，尤其是文献综述环节，是学术圈知名“老大难”。

用HUAWEI Mate X6的文件管理器打开一篇学术论文，点击右上角小艺星环呼唤出小艺，先生成一张思维导图，快速掌握文章的逻辑脉络和核心观点。

用户对生疏概念进行提问，小艺会给与解答，利用小艺连续问答精准溯源的能力，通过将相关文字高亮，用户可以直接定位到原文做进一步理解，或是根据解答继续追问。这个举动就像人类写论文标注数据来源和出处的习惯，为的就是追求严谨和准确，打消阅读者对生成内容准确性的顾虑。同时，借助高亮溯源的特性，阅读者也能快速找到想详细了解的段落，进一步提升阅读效率。

阅读过程中，遇到陌生的概念，不用到搜索引擎上搜索，直接问小艺，从“深度学习和神经网络的关系”到“多模态LLM和一般模型的区别”，都能迅速给与解答。

得益于多模态内容感知能力，哪怕是论文包含复杂的图表和大段抽象的文字表述，也可以让小艺将其转换为精美易读的图文摘要，绘声绘色、通俗易懂。比如让小艺进行论文解读，用小艺根据文档生成好看易读的图文编排呈现，能更清晰地给出抽象概念的区别，便于理解。不得不说，在需要处理非结构化、多样化表格或图文混排等复杂文档情况下，华为的版面理解模型在内容解析能力上的提升，让小艺具有了更大的优势。

表格数据也是学术论文中常常出现的表达形式，但其在呈现趋势、差异等方面存在不够直观的问题。

依托于鸿蒙系统打造的系统级文档助手，也让小艺有了智能感知用户意图的能力，在遇到类似“LLM历年参数规模”的表格数据时，就可以复制其中的大部分文字，小艺完整识别后提取数据，生成“LLM参数规模散点图/直线图”，展现趋势，一句话即可根据文档内容生成图表，就省得我们自己倒进数据表再手动拉数据画图了。而这就是系统与AI深度绑定的结果。

小艺之所以能正确识别文档，并给出准确的摘要，这也要归功于华为的版面理解模型，正因为有了这项能力的赋能，小艺才能做到准确的高亮溯源、一句话生成图表等动作，事实上它还可以理解文档的页码，即便是将文档的某一页删掉或保留这种操作，都能动动嘴巴让小艺代劳。