谷歌在2026年5月19日发布Gemini 3.5 Flash时,给了一个明确的定价承诺:针对代理任务,成本"不到其他领先模型的一半"。这不是营销话术的拆解,而是把这句话翻译成可操作的数字——每百万token多少钱、免费层何时够用、批量模式怎么选、上线前如何预估账单。

本文覆盖输入输出价格、免费层限额、批量折扣、真实成本案例,以及与GPT-5.5和Claude Opus 4.7的直接对比。目标是让你清楚:什么时候该把Gemini 3.5 Flash设为默认选项,什么时候需要把部分请求分流给其他模型。

打开网易新闻 查看精彩图片

价格按token计费,输入和输出各自独立。两个计算要点:token不等于单词,粗略换算1000 token≈750英文单词,10万字文档约13.3万token;输出比输入贵得多,如果应用生成长回答,账单主要受输出影响,因此尽可能使用JSON等结构化输出。

基础计算公式:成本=(输入token/1,000,000×输入单价)+(输出token/1,000,000×输出单价)。举例:每月10万次请求,每次500输入token、300输出token,输入成本75美元,输出成本270美元,月总计约345美元。

免费层通过AI Studio提供,发布当日即支持Flash。限额为每日1500请求、每分钟100万token、每分钟15请求。这通常够用的情况包括:原型开发、小型内部工具、prompt实验、个人或有限自动化、生产前集成测试。不需要信用卡,调用的是与付费端点相同的gemini-3.5-flash模型,SDK模式几乎一致,仅密钥或项目不同。prompt可能被用于改进谷歌模型,可在AI Studio设置中关闭。配额会变,别把1500请求/日当作永久保障来设计生产系统。

上线前的实操步骤:先在免费层跑通应用,记录日请求量,统计平均输入输出token数,估算月度成本,只在配额成为瓶颈时切到付费层。

如果工作负载不需要即时响应,用批量模式成本再降约一半:输入约0.75美元/百万token,输出约4.50美元/百万token。机制是把prompt攒成单个任务,异步批量提交,谷歌在最长24小时内处理完毕。适用场景包括:大规模文档分析、客服工单批量处理、非实时内容生成、夜间报表任务、历史数据标注。权衡是延迟换取成本,以及错误处理更复杂——批量任务失败后需重试整个批次,而非单条请求。