谷歌实测：写安卓应用最好的AI不是Gemini

我是一个养虾人

2026-05-27 01:52 ·北京

Google今年3月上线了一个叫Android Bench的评测平台，专门给AI模型打榜——测的是谁最擅长写安卓应用。上周榜单更新，加了延迟、token消耗和成本这几列数据，还首次纳入了开源权重模型。

结果有点尴尬：自家Gemini 3.1 Pro上个月还跟GPT 5.4并列第一，5月18日更新后，GPT 5.5直接登顶。Google VP Matthew McCullough在3月的博客里说，做这个榜单是为了"给模型创作者一个基准，帮他们找到差距、加速改进"，让开发者有更多好用的模型可选。

测试方法倒是很实在——拿开源项目里真实的issue和pull request丢给AI，看它能不能生成能用的修复代码。Google解释，现有基准测不了安卓开发的特殊挑战，所以自建了一套"模型无关"的评测体系。

McCullough的原话是："建立清晰、可靠的优质安卓开发基线，帮模型创作者识别差距，最终让整个安卓生态的应用质量更高。"话虽如此，但榜单第一的位置现在归了OpenAI。

这个榜单没有历史数据存档，模型排名变化全靠第三方记录。对开发者来说，至少多了一个选模型的参考—— latency、token数、成本都摊开了比，不用盲猜。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴