通信世界网消息(CWW)生成式AI与智能手机的深度融合引发了多模态交互场景的爆发,导致终端功能检测的复杂性与状态不确定性激增[1]。传统脚本回放方案难以应对动态弹窗、跨系统协同等复杂逻辑,导致约30%的场景仍需要人工干预,测试效率与一致性瓶颈凸显。
与此同时,智能流程自动化(Intelligent Process Automation,IPA)融合计算机视觉、自然语言处理等技术,在财务、审计等领域已展现出处理非结构化数据与支持复杂决策的能力[2]。然而,目前IPA研究对具备多模态感知、实时交互与跨系统协同特征的手机测试场景关注不足[3]。本文首次系统性探索将IPA框架引入手机检测领域,旨在实现“智能识别—动态决策—自动执行”的闭环。
感知层:集成YOLOv11(一种目标检测算法)与OCR(光学字符识别技术),实现PC与移动端弹窗的统一目标检测与文本识别。
决策层:通过关键语义提取与模糊匹配,将测试需求映射为原子化动作序列,以提升脚本在动态环境中的稳健性。
执行层:结合ADB(安卓调试桥)与视觉驱动RPA(机器人流程自动化),实现跨系统端到端协同控制。
实践表明,在无线紧急警报(WEA)等复杂场景下,该方法使测试效率提升超50%,并支持多终端一致性无人值守测试,为AI时代智能终端的自动化检测提供了高效的技术方案。
1 相关领域现状
IPA作为RPA智能化演进的成果,通过集成机器学习、计算机视觉(CV)与自然语言处理(NLP)技术,实现了从“基于规则”向“数据驱动决策”的范式转型[2]。虽然在金融、制造及网络运维等领域,IPA处理非结构化数据与复杂业务的能力得到验证[1,2],但在手机测试这类界面变更频繁、数据形态复杂,以及流程因操作反馈或系统状态不同而存在多种可能路径的场景中应用尚浅。
在技术并行层面,基于YOLO与OCR的视觉感知技术有效提升了移动端UI检测的鲁棒性[1,4];与此同时,基于大模型构建、以Trident为代表的多模态框架,在GUI自动化探索方面取得了显著进展[5]。然而,现有研究仍存在以下局限性:首先是协同缺失,多聚焦单端App或特定目标识别,缺乏PC测试平台与移动终端之间的跨系统协同控制;其次是映射断层,难以实现复杂测试规程与弹窗语义之间的深度映射;最后是闭环能力不足,尚未形成系统性的端到端自动化流程。
综上所述,虽然IPA的有效性及多模态技术的感知能力已得到验证[1,2,5],但将IPA的“感知—决策—执行”闭环能力系统性引入手机检测领域的研究仍是空白。本文以此为切入点,旨在探索能够应对高复杂度多模态交互的智能化测试方案。
2 多模态IPA手机检测平台架构与模块设计
本文在IPA思路的基础上,构建了面向手机检测的多模态动态闭环架构,整体由感知层、决策层和执行层三部分组成,如图1所示。系统通过“智能识别—动态决策—自动执行”的闭环控制,将传统脚本驱动的静态自动化测试升级为可应对复杂场景的智能自动化测试。
图1 多模态IPA手机检测平台架构
2.1感知模块设计
感知模块作为IPA平台的底层支撑,可实现跨终端界面的高鲁棒性统一感知。
弹窗目标检测:为适配测试过程中频繁出现的各类弹窗提示,本文利用 YOLOv11构建检测模型,针对PC与手机端异构界面(不同分辨率及风格)进行实时扫描,实现弹窗区域的精确回归与定位,为后续分析锁定感兴趣区(ROI)。
文本与图标语义解析:在获得弹窗区域后,集成PaddleOCR并融合空间拓扑特征,对ROI内的文本与功能图标进行分块提取。
2.2 决策模块设计
决策模块的任务是将感知结果映射为具体测试任务和操作意图。该模块首先将复杂的测试规程解构为文本校验、图标匹配及屏幕交互等原子化任务。针对异构系统版本差异、多语言环境下提示语的不规范,该模块引入了基于莱文斯坦距离(Levenshtein Distance)的模糊匹配机制,通过度量感知文本与预期规程之间的语义相似度,实现操作意图的精准判定。这种机制有效解决了传统脚本依赖固定字符匹配的问题,显著增强了系统在语义表述差异场景下的自适应性与决策鲁棒性,实现了复杂测试路径的闭环。
2.3 执行模块与原子动作库
执行模块旨在将高层决策意图转化为针对终端及环境的具体物理操作,是实现端到端自动化的关键一环。
原子动作库设计:针对屏幕交互、系统设置(如飞行模式、时钟同步)及多模态通信等底层规程,构建标准化原子动作集。通过将复杂操作解构为参数化、可调用的独立函数接口,确保执行层对异构终端的高效驱动与高度适配。
低代码封装与流程编排:遵循IPA架构理念,将原子动作进一步封装为高阶逻辑组件。系统可依据决策模块输出的指令序列,通过动作库的自动化组合与流程编排,实现测试路径的动态构建。
3 IPA手机检测方法的实现细节
基于IPA架构的多模态测试平台以无线紧急警报场景为牵引,实现了“用例管理—界面感知—决策路由—闭环执行”的自动化流水线。
3.1 弹窗检测模型设计与训练
为兼顾检测精度与实时性,感知层采用轻量化YOLOv11n网络,采集并人工标注涵盖PC与移动端的1000个异构弹窗样本,在RTX 3060硬件环境下进行300轮次迭代(Batch Size=64),模型实现了对多分辨率、多风格弹窗区域的精准回归。
3.2 文字识别与关键语义提取算法
语义解析的准确性直接影响决策逻辑的稳健性,针对YOLO返回的检测框,通过对弹窗内关键元素(如警告文本、交互按钮)的空间分布统计,引入比例分割算法进行区域预处理。该算法有效解决了异构界面下的内容偏移问题,配合OCR显著提升了关键语义的识别精度,为后续决策路由提供了高质量的结构化数据支撑。
将目标区域分割成上、中、下三部分之后(如图2所示),即可对内容进行分块提取。其中,中间区域的内容主要用于提取操作的关键提示词;下面区域的内容主要用于提取按钮所在的位置,以便后续的点击操作。所有提取的信息均须进行统一的大小写格式转换,以免因格式差异导致匹配错误,进而影响执行准确率。
图2目标区域分割结果
3.3 基于莱文斯坦距离的模糊匹配策略
针对OCR识别噪声及多版本语境下的“语义漂移”问题,本文引入莱文斯坦距离构建模糊匹配机制,即通过计算感知文本与标准词条间的归一化相似度,实现测试意图的语义对齐。该策略弥补了精确匹配规则的脆弱性,显著增强了系统在非结构化提示语环境下的决策鲁棒性。
3.4原子动作库的设计与执行流程实现
原子动作库将复杂规程解构为ADB指令、内容校验及点击执行子库,通过封装ADB底层驱动,实现主机对终端状态切换(如飞行模式、时钟同步)及多模态交互的自主控制。该设计实现了业务逻辑与底层驱动的深度解耦,显著提升了测试执行效能与系统的跨平台适配力。
4实验设计与效果验证
本研究选取10个典型用例,构建PC与移动端耦合的测试环境。通过50轮蒙特卡罗实验,从执行效能、跨终端稳健性及故障检出率三个维度,量化对比IPA与人工测试的性能差异,系统验证了该方案的工程可行性与可靠性。
由图3可知,IPA系统能够快速向手机端发送相关指令,自动完成测试信息比对,全程无需人工干预,相比人工操作测试效率提升了约50%。此外,IPA系统还可在夜间自动执行测试任务,因此在测试效率上具有显著优势。
图3 终端测试工作时间对比
表1为不同被测终端测试效果对比,表2为部分测试用例执行结果清单。综合分析结果表明,该系统在异构终端测试中表现出优异的泛化性。故障注入实验证实,系统能精准识别所有异常样本,具备高可靠的错误检出能力与决策稳健性,实现了复杂规程下的闭环自动化检测。
表1不同被测终端测试效果对比
表2 部分测试用例执行结果清单
5 结束语
本文旨在探索构建集成人工智能视觉、原子动作库技术的IPA自动化测试平台,并在实际测试环境中检验了所提方法的有效性和可靠性。未来,笔者将根据实际测试需求,进一步完善和优化测试平台功能,并探索大模型等先进人工智能技术在手机测试自动化领域的应用。
参考文献
[1] 周映. 基于RPA技术的网络安全运营自动化实践应用研究[J]. 电信科学, 2024, 40(7): 164-174.
[2] 刘勤. 智能财务之流程自动化变革:从RPA到IPA. 财会月刊[J], 2024(9): 33-40.
[3] 霍丽霞. 基于图像内容识别的移动应用智能检测系统[J]. 警察技术, 2025(1): 61-64.
[4] Anilkumar C, Rani M S, Venkatesh B, et al. Automated License Plate Recognition for Non-Helmeted Motor Riders Using YOLO and OCR[J]. Journal of Mobile Multimedia, 2024(9): 239-265.
[5] Liu Z, Li C, Chen C Y, et al. Vision-driven Automated Mobile GUI Testing via Multimodal Large Language Model[EB/OL]. (2024-07-03) [2025-11-20]. https://arxiv.org/abs/2407.03037.
热门跟贴