去年四季度,Claude Opus 4.5上线后,agentic coding(智能体编程,圈内叫"vibe coding")突然能干活了。你描述需求,AI直接输出接近可用的代码,完全不懂编程的人也能搓出个App上架。
但这股浪潮撞上了一堵墙:苹果App Store的人工审核机制。
传统模式下,人工审核不算大问题。写代码需要时间,提交量天然受限,一小批审核员就能周转过来。vibe coding把这个前提撕碎了——生成速度按小时计,提交量陡增,而苹果还在用同一套人力处理。
结果就是审核时间从"当天"滑向"3天以上",部分开发者被困一周。Twitter这类公司也中招,独立开发者更是集体抱怨。一个原本24小时内搞定的流程,现在成了不确定的等待游戏。
人工审核的骄傲与困境
苹果前高管Phil Schiller曾力推保留纯人工审核,拒绝自动化方案。这套机制的核心卖点是"安全"——真人检查每一行代码意图,拦截恶意行为。
但vibe coding改变了代码的生产方式。AI生成的代码量呈指数级增长,审核员面对的不是人类程序员的意图表达,而是机器输出的、往往缺乏注释的代码块。审核难度没变,吞吐量却爆了。
更尴尬的是经济账。大量vibe coding应用来自尝鲜用户,本身没有商业模式,审核它们不产生平台收益。苹果若要为这波浪潮扩招审核团队,相当于给零收入应用补贴人力成本。
开发者分成了两派。一派是"原住民"——持续迭代产品的团队,他们的更新被卡在队列里,竞争对手可能因此抢跑。另一派是"新移民"——用AI几分钟生成应用上架,测试市场反应,不行就撤。
苹果目前的折中是"加急审核"通道,但官方定位很明确:只给关键bug修复和重大时效性更新,不是给排队等烦了的人开的绿灯。
两条可能的出路
短期看,行业讨论集中在两个方向。
第一条是分层审核。对成熟开发者降低抽查频率,对新账号或AI生成特征明显的应用保持严格审查。这能保护生态质量,同时给高频更新团队松绑。但"AI生成特征"怎么定义?代码风格分析?元数据检测?技术门槛和误判风险都不低。
第二条是自动化前置。用机器先做静态分析、行为模拟,过滤掉明显违规的提交,人工只处理存疑案例。这实际上在侵蚀Schiller坚持的"纯人工"底线,但可能是唯一 scalable 的方案。
长期看,vibe coding可能只是开端。当AI不仅能写代码,还能根据审核反馈自动修改、重新提交,审核机制面对的是一场无限游戏。人类审核员的速度天花板是固定的,而AI的迭代速度还在加速。
一个值得观察的信号是:苹果是否会调整审核政策的表述。目前官网仍强调"真人审核每一款应用",但如果排队时间常态化延长到一周,这个承诺的用户体验代价将难以承受。
部分开发者已经开始用脚投票——转向Web应用或TestFlight内测,绕过Store审核。这对苹果生态的封闭性是一次间接削弱。
谁在承担成本
这场挤兑的代价分配并不均匀。大公司有资源等,有渠道催,甚至能直接联系苹果对接人。独立开发者和小团队最受伤:一次审核延误可能错过营销窗口,或让付费用户流失到竞品。
vibe coding的参与者也有苦衷。很多人并非恶意刷量,只是测试AI能力的边界。他们的应用可能粗糙,但审核标准并未区分"认真做的烂产品"和"AI生成的烂产品"——两者在人工审核员眼中都是待处理的队列项。
更深层的问题是审核标准的模糊性。苹果对AI生成内容没有专门条款,但审核员的主观判断空间很大。一个功能完整的AI应用,可能因为"感觉不对劲"被打回,而开发者无从得知具体规则触发了哪一条。
这种不确定性正在改变开发者的行为模式。有人选择批量提交、广撒网,用数量对冲审核通过率;有人转向更保守的功能设计,避开可能引发人工警觉的领域。两种策略都在扭曲创新方向。
苹果尚未公开回应审核延迟的投诉,也没有发布政策更新。沉默本身是一种信号:要么内部仍在评估,要么这个问题被优先级更高的议题覆盖。
但开发者的耐心有限。当"提交-等待-被拒-修改-再等待"的循环从几天拉长到几周,平台对创作者的吸引力必然打折。历史上,审核效率曾是苹果对比安卓的优势之一,现在这个差距在缩小。
vibe coding会不会是一阵风?部分观察者认为,当前热潮中大量应用是实验性的,留存率极低,审核压力可能自然消退。但另一种可能是,AI编程工具持续进化,门槛持续降低,提交量进入新的稳态——远高于人工审核的设计容量。
如果是后者,苹果需要回答一个 Schiller 时代回避的问题:人工审核的骄傲,值多少用户等待的时间?
热门跟贴