Gemini 3.5 Flash定价拆解：便宜一半的真实成本|flash|token|定价拆解|批量|调用

谷歌在2026年5月19日发布Gemini 3.5 Flash时，给了一个明确的定价承诺：针对代理任务，成本"不到其他领先模型的一半"。这不是营销话术的拆解，而是把这句话翻译成可操作的数字——每百万token多少钱、免费层何时够用、批量模式怎么选、上线前如何预估账单。

本文覆盖输入输出价格、免费层限额、批量折扣、真实成本案例，以及与GPT-5.5和Claude Opus 4.7的直接对比。目标是让你清楚：什么时候该把Gemini 3.5 Flash设为默认选项，什么时候需要把部分请求分流给其他模型。

价格按token计费，输入和输出各自独立。两个计算要点：token不等于单词，粗略换算1000 token≈750英文单词，10万字文档约13.3万token；输出比输入贵得多，如果应用生成长回答，账单主要受输出影响，因此尽可能使用JSON等结构化输出。

基础计算公式：成本=(输入token/1,000,000×输入单价)+(输出token/1,000,000×输出单价)。举例：每月10万次请求，每次500输入token、300输出token，输入成本75美元，输出成本270美元，月总计约345美元。

免费层通过AI Studio提供，发布当日即支持Flash。限额为每日1500请求、每分钟100万token、每分钟15请求。这通常够用的情况包括：原型开发、小型内部工具、prompt实验、个人或有限自动化、生产前集成测试。不需要信用卡，调用的是与付费端点相同的gemini-3.5-flash模型，SDK模式几乎一致，仅密钥或项目不同。prompt可能被用于改进谷歌模型，可在AI Studio设置中关闭。配额会变，别把1500请求/日当作永久保障来设计生产系统。

上线前的实操步骤：先在免费层跑通应用，记录日请求量，统计平均输入输出token数，估算月度成本，只在配额成为瓶颈时切到付费层。

如果工作负载不需要即时响应，用批量模式成本再降约一半：输入约0.75美元/百万token，输出约4.50美元/百万token。机制是把prompt攒成单个任务，异步批量提交，谷歌在最长24小时内处理完毕。适用场景包括：大规模文档分析、客服工单批量处理、非实时内容生成、夜间报表任务、历史数据标注。权衡是延迟换取成本，以及错误处理更复杂——批量任务失败后需重试整个批次，而非单条请求。