苹果把传统手艺交给AI了：微调千问模型自动完成UI设计|代码|传统手艺|千问模型|客户端节点|工作流|知名企业|编程|编译器|翻译|苹果公司

对于软件开发者而言，AI 及通用大语言模型（LLM）固然可在创意写作和基础编程任务上“搭把手”。然而，面对图形用户界面（UI）这一占据现代应用程序半壁江山的领域时，它们往往显得力不从心。

UI 开发是一项涉及多任务处理的繁杂工作，一个能够从头设计 UI 的大模型，必须具备像素级的视觉理解能力、能够生成逻辑严谨的可编译代码，还要拥有符合人类审美与交互直觉的设计判断力。

苹果（Apple）公司的研究团队认为，做好 UI 设计的关键在于设计师的“隐性领域知识”（tacit domain knowledge）。这种关于美学、交互和权衡的直觉，无法通过简单的爬取网页数据获得，毕竟，UI 代码在通用代码数据集中的占比甚至不足 1%。

为填补这一鸿沟，近期，苹果公司的机器学习研究团队联合卡内基梅隆大学、阿尔托大学等多家顶尖科研机构，通过一系列层层递进的研究，让 AI 学会了“看懂”复杂的移动端屏幕，并结合独特的自动化反馈机制让模型“自学”编写 UI 代码，甚至将其引入专业设计师的工作流，由人类专家教导 AI，提高其审美与交互设计的能力。

首先，要让 AI 生成 UI，必须让它能够像人类一样精准地理解屏幕上的每一个像素。然而，通用的多模态模型在处理移动 UI 时存在天然的劣势：移动设备屏幕通常具有细长的纵横比，充满了极其微小却功能关键的图标和文本，这些细节在传统模型的图像压缩处理中往往会丢失。

为了解决这一感知瓶颈，研究团队率先于 2024 年 4 月推出了 Ferret-UI 模型。该模型引入了一种创新的“下任意分辨率”技术，它不再粗暴地缩放图像，而是根据屏幕的原始纵横比（如手机的竖屏或平板的横屏），将画面灵活切割为多个子图像，在对此进行独立编码。这种处理方式如同给了 AI 一把清晰的“放大镜”，使其能够捕捉到微小的 UI 元素。

通过在涵盖图标识别、文本查找、组件列表等基础任务，包含功能推断、交互对话等高级任务的精选数据集上进行训练，Ferret-UI 展现出了卓越的指代（Referring）与定位（Grounding）能力，其能描述屏幕内容，处理点、框、线条等空间指令都不在话下，还能对具体内容进行精确的坐标区域定位，在理解移动 UI 的基础任务方面甚至超越了当时占据领先地位的 GPT-4V 模型。

此外，针对 UI 领域稀缺高质量训练数据的痛点，团队也早在 2023 年发布的另一项名为 ILuvUI 的研究中，提出一种无需人工介入的数据生成方案，证明了合成数据在提升模型视觉理解力方面的巨大潜力。

研究者利用现有的 UI 检测技术提取屏幕元数据，再结合 GPT-3.5，生成逼真的问答与描述，形成一套包含 33.5 万个样本的丰富数据集。利用这一高质量数据集，研究人员初步训练出了一个既能理解界面，也能进行多步交互规划的大模型。

在解决“看懂”的问题后，下一个挑战是如何让模型写出高质量的 UI 代码。在 UI 开发中，代码不仅要语法正确，还必须能被编译器接受，同时渲染出符合预期的视觉效果。然而，现有的开源代码数据集（如 TheStack）中，SwiftUI 等特定 UI 框架的代码占比极低，这就让通用模型难以掌握其编程范式。

2024 年 6 月，苹果的研究团队再次优化了他们的 UI 模型，提出一种巧妙的“自动化反馈闭环”训练方法。他们首先使用一个几乎没有接触过 SwiftUI 数据的开源基础模型（StarChat-Beta），要求其根据文本描述强行生成大量代码。

随后，系统引入了两个冷酷的“判官”：一个是 Swift 编译器，负责剔除无法运行的垃圾代码；另一个是视觉-语言模型（CLIP），负责对比生成的界面截图与原始描述的匹配度。只有同时通过编译检查且视觉评分高的代码，才会被用于微调模型。

经过五轮“代码生成-编译器验证-视觉匹配度评分（CLIP）-筛选去重”的迭代，这个名为 UICoder、参数仅有 15.5B 的模型最终“无中生有”地掌握了 SwiftUI 编程，不仅在代码的可编译性上大幅超越基准模型，还在编译成功率上击败了 GPT-4。

这项技术成功解决了“理解需求”和“写出能跑的代码”之间的 UI 工程鸿沟，确立了利用自动化工具反馈来提升代码生成质量的技术范式。

苹果团队并不想止步于此。众所周知，在苹果哲学中，“设计”从来不仅仅意味着外观，它是功能的灵魂，更是其软硬件生态难以被逾越的护城河。通用 AI 最多能写出逻辑正确的代码，却缺乏对人类交互直觉的深刻理解，简而言之，AI“没品味”，也不知道什么是真正的“好设计”。

为了让 AI 也能做出苹果级别的优质设计，研究人员将目光投向了人类设计师的专业知识。传统的强化学习（RLHF）通常要求人类在两个选项中进行简单排名（Ranking），但在主观性极强的设计领域，这种二元选择会导致数据噪声极大，难以传达具体的设计意图。

时间来到 2025 年 9 月，研究团队在一项最新研究中展示了他们的最终成果，他们推出了一款贴合 UI 设计师日常工作流的反馈工具，允许设计师“评论”（Commenting）、“绘图标注”（Sketching）甚至直接“修改”（Revising）AI 生成的界面，对其提供反馈。设计师的修改痕迹也将转化为训练数据，用于对模型进行奖励型微调。