Google今年3月上线了一个叫Android Bench的评测平台,专门给AI模型打榜——测的是谁最擅长写安卓应用。上周榜单更新,加了延迟、token消耗和成本这几列数据,还首次纳入了开源权重模型。

结果有点尴尬:自家Gemini 3.1 Pro上个月还跟GPT 5.4并列第一,5月18日更新后,GPT 5.5直接登顶。Google VP Matthew McCullough在3月的博客里说,做这个榜单是为了"给模型创作者一个基准,帮他们找到差距、加速改进",让开发者有更多好用的模型可选。

打开网易新闻 查看精彩图片

测试方法倒是很实在——拿开源项目里真实的issue和pull request丢给AI,看它能不能生成能用的修复代码。Google解释,现有基准测不了安卓开发的特殊挑战,所以自建了一套"模型无关"的评测体系。

McCullough的原话是:"建立清晰、可靠的优质安卓开发基线,帮模型创作者识别差距,最终让整个安卓生态的应用质量更高。"话虽如此,但榜单第一的位置现在归了OpenAI。

这个榜单没有历史数据存档,模型排名变化全靠第三方记录。对开发者来说,至少多了一个选模型的参考—— latency、token数、成本都摊开了比,不用盲猜。