当代职场人,“随地移动办公”是一种常态。
前一秒还在city walk,下一秒掏出笔记本往台阶上一放、就地办公;候机室里,总有那么几个人直到登机的前一秒还在笔记本上敲字疾书。
这是信息爆炸、连接无处不在的现代社会,在给予人类生活方便之余,随手附赠的无奈。
合同签订前关键信息修改、稿件发布前的查漏补缺,种种突发状况,都让移动办公处理文档成为当下职场人的刚需。
手机屏幕越做越大,给人们在移动中阅读更长的文档提供了方便,但“处理”的步骤仍在困住职场人的手脚,随身携带的笔记本仍然是肩头沉重的负担。
大模型的到来给解放职场人的肩膀带来了可能,也给产学界攻克“难啃的硬骨头”——文档AI,带来了突破口。
难啃的硬骨头
1992年,Adobe联合创始人查尔斯·希莫尼发明了PDF,连同十年前微软的查尔斯·希莫尼发明的Word,联手开启了数字化办公的时代。
堆积如山的纸质文档工作被浓缩在一方屏幕之中,一度将人们处理文档的效率推向了新的层级。但两个查尔斯都不会想到,几十年后的现在,这些数字文档会反过来拖累职场人的工作效率。
工程师敲代码前需要阅读的技术文档动辄几百页,分析师写行业报告需要从几十、上百家公司财报中抽丝剥茧、获取趋势共性,物理世界的纸质文件化身为14寸屏幕堆不下的数字文档,同样可以淹没无数职场人。
人工智能发展几十年,产学界很早就试图用AI技术辅助人们处理文档工作。从最早的规则启发到神经网络引入权重和数据训练,基本的思路都是“人为归纳规则->转换为机器语言(函数和代码)->教授计算机规则”。
然而,随着人们需要在电脑上处理的工作范围越来越广,文档的复杂化发展没有尽头,有限的硬件算力和仍待完善的算法,都使得大部分文档智能不那么智能。
例如一旦文章过长或是包含的图文要素过多,文档智能给出的摘要常常不够准确,甚至和文档内容风马牛不相及;
或是用户希望针对某一问题在文档内容中找到相应的解答,文档智能虽然会给出答案,却不能溯源定位到原文,使得用户无法进一步确定答案的准确性。
同时,随着数字化深入到各行各业,文档类型越发繁杂,每一类文档对应一种处理规则,一种规则再对应一套算法的建立和后续的调试,整个流程逐渐变成了难以负担,并且不具备经济效益的繁重工作。
自动驾驶的难度众所周知,而文档AI面临的挑战并不比自动驾驶少。
一是数据。根据IDC口径,2018年-2025年,全球数据量将从33ZB到增长到175ZB,其中80%是非结构化数据[1],包括图像、音频、传感器数据等,共同特点是没有统一格式、缺乏定义,难以表征;
二是理解能力。语言中的复杂语义、文档的结构化都需要更强的逻辑演绎能力来理解和解读,比如从“任务很困难,但小明坚持完成了”,推导出“小明持之以恒”,再比如一级标题和二级标题之间的递进、表格表头与数据的一一对应等。
三是专业性。尤其是在专业性极强的垂直行业,例如专业的论文,财经报告,律师卷宗等等,解读这类文档需要专业知识的长期积累。
直到大模型的出现,无需人工标注的数据和自监督学习机制,赋予了计算机自主进化的能力。
作为产学界最难啃的骨头之一,文档AI因此得到了突破的机会,HUAWEI Mate X6的系统级AI助手小艺率先作出了示范。
突破文献综述难题的创新探索
今年10月“原生鸿蒙”HarmonyOS NEXT正式登场,11月华为Mate品牌盛典,软件层焕然一新,再次进化的智能体小艺聚焦了视线。
HUAWEI Mate X6的大屏和轻便为移动办公而生,HarmonyOS NEXT将AI与操作系统深度融合,赋予了小艺处理复杂文档时的突破性表现。
学术论文是典型的复杂文档,其中包含大量抽象概念,混合艰深晦涩的文字表述,加上庞杂的数据图表,依靠肉眼阅读、人脑理解都费时费力。
但论文写作逃不开阅读、引用大量前人论文,尤其是文献综述环节,是学术圈知名“老大难”。
用HUAWEI Mate X6的文件管理器打开一篇学术论文,点击右上角小艺星环呼唤出小艺,先生成一张思维导图,快速掌握文章的逻辑脉络和核心观点。
用户对生疏概念进行提问,小艺会给与解答,利用小艺连续问答精准溯源的能力,通过将相关文字高亮,用户可以直接定位到原文做进一步理解,或是根据解答继续追问。这个举动就像人类写论文标注数据来源和出处的习惯,为的就是追求严谨和准确,打消阅读者对生成内容准确性的顾虑。同时,借助高亮溯源的特性,阅读者也能快速找到想详细了解的段落,进一步提升阅读效率。
阅读过程中,遇到陌生的概念,不用到搜索引擎上搜索,直接问小艺,从“深度学习和神经网络的关系”到“多模态LLM和一般模型的区别”,都能迅速给与解答。
得益于多模态内容感知能力,哪怕是论文包含复杂的图表和大段抽象的文字表述,也可以让小艺将其转换为精美易读的图文摘要,绘声绘色、通俗易懂。比如让小艺进行论文解读,用小艺根据文档生成好看易读的图文编排呈现,能更清晰地给出抽象概念的区别,便于理解。不得不说,在需要处理非结构化、多样化表格或图文混排等复杂文档情况下,华为的版面理解模型在内容解析能力上的提升,让小艺具有了更大的优势。
表格数据也是学术论文中常常出现的表达形式,但其在呈现趋势、差异等方面存在不够直观的问题。
依托于鸿蒙系统打造的系统级文档助手,也让小艺有了智能感知用户意图的能力,在遇到类似“LLM历年参数规模”的表格数据时,就可以复制其中的大部分文字,小艺完整识别后提取数据,生成“LLM参数规模散点图/直线图”,展现趋势,一句话即可根据文档内容生成图表,就省得我们自己倒进数据表再手动拉数据画图了。而这就是系统与AI深度绑定的结果。
小艺之所以能正确识别文档,并给出准确的摘要,这也要归功于华为的版面理解模型,正因为有了这项能力的赋能,小艺才能做到准确的高亮溯源、一句话生成图表等动作,事实上它还可以理解文档的页码,即便是将文档的某一页删掉或保留这种操作,都能动动嘴巴让小艺代劳。
国内学者还经常遭遇全英文文献的困扰,贯穿全文的英文专有名词,即使翻译APP不离手,也免不了阅读速度大大降低。小艺不仅能提供全文翻译,还可以生成中文摘要、提供中文问答来帮助用户更快地领会文献核心。
几十页的学术论文,靠小艺可以极大地缩短阅读时间,将自己从繁杂的信息中解放出来,更高效地获取对自己的研究真正有价值的论据和数据。
财报同样充斥着大量的文字、数据和图表内容。分析师写行业报告,需要梳理几十上百份财报,抽取出关键数据做线性回归分析。
有了小艺,想要对财报中的表格数据进一步分析,同样可以借助小艺的多模内容精准感知解读的能力,获得分析绘图,还可以直接一句话生成自定义表格,例如“把第一季度、第二季度收入画成饼状图”等要求。
小艺能够轻松扮演“研究助手”、“助理分析师”,最关键的就是前面所提到的,其依托的是领先业内的版面理解模型。
版面分析模型是复杂文档处理的基础,它将文档按照区域划分,定位标题、文字、图片、表格等关键信息,再进行解读,是执行表格提取等后续操作的前提,其精度决定了这些操作的准确性。
小艺背后的版面理解模型通过增加长序列、RAG、Grounding等技术办法,提升了解析文档的能力,并实现了端对端的优化。
其中,长序列是指文档中的上下文,也就是“前景提要”和“背景知识”,模型能够利用的上下文越长,对内容的理解能力越强,直接影响摘要生成、翻译等功能。
RAG即检索增强生成技术,当用户向小艺提出一个问题,RAG技术负责从各类数据源检索相关联的信息提供给模型,综合这些信息回答用户的问题。
Grounding则用来引用具体的概念、事件,通过建立与现实世界的联系,确保小艺生成内容的可靠性,更准确地理解、描述图像、视频等多媒体数据。
强大的模型赋予了小艺领先业内的文档处理能力,是其综合能力的其中一隅。
随时在线的文档助手
职场上要求的不只是工作能力,主观能动性、有求必应也被视作责任心的体现。
类似地,用户对于文档智能助手的期待也不只是足够强的处理文档“硬实力”,更容易开启、随叫随到等等“软实力”,也对用户体验至关重要。
而小艺的深厚“内功”就在于此。
与HarmonyOS NEXT的深度融合,使得小艺晋升为系统级AI助手,调配算力、线程、内存等系统资源更加灵活。
相当于跑堂传话的小厮升职成为执掌人事调度、采买等事务的大管家,真正拥有了接管用户生活、工作琐事的能力。
小艺的文档智能也因此实现了“随叫随到”,与用户的交互方式更加自然,将调用方式浓缩为了几个简单而日常的动作:
拖——比如导师通过邮件附件发来的要求阅读的学术论文、在社交软件中与人做学术讨论时对方发来推荐阅读的文献,都可以直接拖拽至屏幕底部的小艺导航条,小艺能够识别并解读、生成总结摘要,用户可以针对摘要进行提问、追问。
圈——阅读文献时,遇到难以理解的理论或专业术语,可以用指关节对内容进行圈选,小艺能识别圈选的内容并快捷地推荐“问问小艺”、“识图搜索”等高频功能,用户点击“问问小艺”就可以针对理论与小艺进行问答。
唤——在图书馆等需要保持安静的环境里阅读材料和论文时,借助“小艺私语”功能,可以在不打扰周围人的情况下使用文档AI功能,只需要抬起手机、在距离麦克风约5厘米左右的区域直接说出需求即可,即使是悄悄说,小艺也能听见。
更自然的交互方式+更强大的处理能力,让小艺的文档能力真正落到了实际,帮助学者、以及更多的职场人从重复而繁重的工作中解放,转而将更多精力放在能够创造更大效益、体现自身独特价值的事务中,提升获得感和成就感。
这些情绪价值被放大到生活中,也将让人们对“AI改变生活”的愿景有了实感。
2024年被视作大模型入端元年,AI助手作为人们调用大模型最直接的媒介被寄予厚望。人们希望AI助手能切实为自己分担琐碎的事务和工作。
处理复杂文档是困扰AI产业多年的疑难杂症,也是现代社会人们繁重和低效率工作的缩影,成为AI终端和智能体绕不开的大山。
小艺文档助手的突破给产业提供了一个全新的范本,也标志着一个隐形的AI超级入口——文档,正在向无数产业参与者,敞开大门。
参考资料
[1]数字化世界—从边缘到核心,IDC
[2]“盘古”开天记,AI落地时,《华为技术》第90期
[3]盘古3.0:中国大模型突围的一个典型样本,远川研究所
[4]文档智能:数据集、模型和应用,BFT智能机器人研究
[5]文档能否成为AI的超级入口?出海同学会
作者:何律衡
编辑:李墨天
视觉设计:疏睿
责任编辑:何律衡
热门跟贴