谷歌Gemini 1.5发布：百万token上下文，视频直接读|token|上下文|人工智能模型|代码|调用|谷歌gemini

5月23日，谷歌正式发布Gemini 1.5 Flash与Gemini 1.5 Pro两款新模型。官方定位很明确："anything-to-anything"多模态理解——文本、图像、音频、视频，进什么格式都能处理，出什么格式都能生成。

这不是简单的功能叠加。Gemini 1.5 Pro把上下文窗口推到了100万token，相当于能一次性塞进数小时视频或数十万行代码。Gemini 1.5 Flash则走另一条路：高吞吐、低延迟，专为实时场景优化。谷歌的原话是，Flash是"最高效的模型"，要把大上下文窗口和多模态推理的能力，规模化铺到更多应用场景里。

技术层面有几个硬更新。多模态推理能力增强，视频和音频的理解深度明显提升。上下文窗口的扩展是Pro版本的核心卖点——100万token意味着你可以丢给它一整部电影，或者一个中型代码库，让它跨片段找关联、做总结。Flash版本则在成本和速度上做文章，适合需要快速响应、大量调用的场景。配套的开发工具和API也在同步推出，降低接入门槛。

对实际工作流的影响更直接。市场研究里常见的痛点是视频素材太多、看完太慢——现在可以直接丢给模型做结构化分析。客户反馈视频、竞品发布会、行业 webinar，这些过去需要人工逐帧看的内容，理论上可以自动化拆解。SEO 策略制定中涉及的大规模数据集分析，也能借助扩展后的上下文窗口提速。内容创作环节，更长的上下文意味着AI写作助手能"记住"更多背景信息，生成长文的连贯性和相关性可能改善。

但这里有个值得拆开的张力。Pro版本的能力边界看起来很宽，实际落地取决于两个未知数：一是百万token场景下的推理质量是否稳定，二是调用成本能不能压到可接受的范围。Flash版本解决了速度和成本问题，但功能裁剪了多少，官方没有细说。谷歌提到的"更广泛的应用场景"，具体指哪些、排除哪些，还需要更多实测案例来验证。