对于软件开发者而言,AI 及通用大语言模型(LLM)固然可在创意写作和基础编程任务上“搭把手”。然而,面对图形用户界面(UI)这一占据现代应用程序半壁江山的领域时,它们往往显得力不从心。
UI 开发是一项涉及多任务处理的繁杂工作,一个能够从头设计 UI 的大模型,必须具备像素级的视觉理解能力、能够生成逻辑严谨的可编译代码,还要拥有符合人类审美与交互直觉的设计判断力。
苹果(Apple)公司的研究团队认为,做好 UI 设计的关键在于设计师的“隐性领域知识”(tacit domain knowledge)。这种关于美学、交互和权衡的直觉,无法通过简单的爬取网页数据获得,毕竟,UI 代码在通用代码数据集中的占比甚至不足 1%。
为填补这一鸿沟,近期,苹果公司的机器学习研究团队联合卡内基梅隆大学、阿尔托大学等多家顶尖科研机构,通过一系列层层递进的研究,让 AI 学会了“看懂”复杂的移动端屏幕,并结合独特的自动化反馈机制让模型“自学”编写 UI 代码,甚至将其引入专业设计师的工作流,由人类专家教导 AI,提高其审美与交互设计的能力。
首先,要让 AI 生成 UI,必须让它能够像人类一样精准地理解屏幕上的每一个像素。然而,通用的多模态模型在处理移动 UI 时存在天然的劣势:移动设备屏幕通常具有细长的纵横比,充满了极其微小却功能关键的图标和文本,这些细节在传统模型的图像压缩处理中往往会丢失。
为了解决这一感知瓶颈,研究团队率先于 2024 年 4 月推出了 Ferret-UI 模型。该模型引入了一种创新的“下任意分辨率”技术,它不再粗暴地缩放图像,而是根据屏幕的原始纵横比(如手机的竖屏或平板的横屏),将画面灵活切割为多个子图像,在对此进行独立编码。这种处理方式如同给了 AI 一把清晰的“放大镜”,使其能够捕捉到微小的 UI 元素。
通过在涵盖图标识别、文本查找、组件列表等基础任务,包含功能推断、交互对话等高级任务的精选数据集上进行训练,Ferret-UI 展现出了卓越的指代(Referring)与定位(Grounding)能力,其能描述屏幕内容,处理点、框、线条等空间指令都不在话下,还能对具体内容进行精确的坐标区域定位,在理解移动 UI 的基础任务方面甚至超越了当时占据领先地位的 GPT-4V 模型。
此外,针对 UI 领域稀缺高质量训练数据的痛点,团队也早在 2023 年发布的另一项名为 ILuvUI 的研究中,提出一种无需人工介入的数据生成方案,证明了合成数据在提升模型视觉理解力方面的巨大潜力。
研究者利用现有的 UI 检测技术提取屏幕元数据,再结合 GPT-3.5,生成逼真的问答与描述,形成一套包含 33.5 万个样本的丰富数据集。利用这一高质量数据集,研究人员初步训练出了一个既能理解界面,也能进行多步交互规划的大模型。
在解决“看懂”的问题后,下一个挑战是如何让模型写出高质量的 UI 代码。在 UI 开发中,代码不仅要语法正确,还必须能被编译器接受,同时渲染出符合预期的视觉效果。然而,现有的开源代码数据集(如 TheStack)中,SwiftUI 等特定 UI 框架的代码占比极低,这就让通用模型难以掌握其编程范式。
2024 年 6 月,苹果的研究团队再次优化了他们的 UI 模型,提出一种巧妙的“自动化反馈闭环”训练方法。他们首先使用一个几乎没有接触过 SwiftUI 数据的开源基础模型(StarChat-Beta),要求其根据文本描述强行生成大量代码。
随后,系统引入了两个冷酷的“判官”:一个是 Swift 编译器,负责剔除无法运行的垃圾代码;另一个是视觉-语言模型(CLIP),负责对比生成的界面截图与原始描述的匹配度。只有同时通过编译检查且视觉评分高的代码,才会被用于微调模型。
经过五轮“代码生成-编译器验证-视觉匹配度评分(CLIP)-筛选去重”的迭代,这个名为 UICoder、参数仅有 15.5B 的模型最终“无中生有”地掌握了 SwiftUI 编程,不仅在代码的可编译性上大幅超越基准模型,还在编译成功率上击败了 GPT-4。
这项技术成功解决了“理解需求”和“写出能跑的代码”之间的 UI 工程鸿沟,确立了利用自动化工具反馈来提升代码生成质量的技术范式。
苹果团队并不想止步于此。众所周知,在苹果哲学中,“设计”从来不仅仅意味着外观,它是功能的灵魂,更是其软硬件生态难以被逾越的护城河。通用 AI 最多能写出逻辑正确的代码,却缺乏对人类交互直觉的深刻理解,简而言之,AI“没品味”,也不知道什么是真正的“好设计”。
为了让 AI 也能做出苹果级别的优质设计,研究人员将目光投向了人类设计师的专业知识。传统的强化学习(RLHF)通常要求人类在两个选项中进行简单排名(Ranking),但在主观性极强的设计领域,这种二元选择会导致数据噪声极大,难以传达具体的设计意图。
时间来到 2025 年 9 月,研究团队在一项最新研究中展示了他们的最终成果,他们推出了一款贴合 UI 设计师日常工作流的反馈工具,允许设计师“评论”(Commenting)、“绘图标注”(Sketching)甚至直接“修改”(Revising)AI 生成的界面,对其提供反馈。设计师的修改痕迹也将转化为训练数据,用于对模型进行奖励型微调。
实验数据表明,相比于简单的比较排名,人类设计师直接上手修改的调整数据具有极高的一致性,大模型由此得以精准捕捉到设计师在布局、层级和美学方面的隐性知识。
令人惊讶的是,仅需使用 181 个高质量的绘图反馈样本,对开源模型 Qwen2.5-Coder 进行微调,其与其变体系列生成的 UI 质量就能在盲测中击败包括 GPT-5 在内的顶尖专有模型。研究还强调,在 UI 生成的高阶阶段,领会相应领域专家的具体修改意图远比海量的模糊评分更为关键。
最终,这项历时近三年的系列研究工作共同构成了一个完整的技术进化链条:Ferret-UI 赋予了 AI 精准的视觉感知能力,UICoder 通过自动化反馈解决了代码实现的工程难题,而基于设计师反馈的研究则注入了人类的审美与设计智慧。
长久以来,软件开发的本质是一场耗时的“翻译”游戏:设计师将意图翻译成图纸,工程师将图纸翻译成代码,机器将代码翻译成界面。未来,这种转译之间的损耗有望被消灭:设计师落笔的瞬间,就是产品诞生的时刻。
参考资料:
https://9to5mac.com/2026/02/05/designers-teach-ai-to-generate-better-ui-in-new-apple-study/
https://9to5mac.com/2025/08/14/apple-trained-an-llm-to-teach-itself-good-interface-design-in-swiftui/
https://arxiv.org/pdf/2310.04869
https://arxiv.org/pdf/2404.05719
https://arxiv.org/pdf/2406.07739
https://arxiv.org/pdf/2509.16779
排版:刘雅坤
热门跟贴