Gemini 3.5 上下文窗口实测:200 万 token 到底能装下多少代码?
Google发布Gemini 3.5 Flash模型,具备100万token上下文窗口,定位高性能Agent与编码场景。测试显示,在15万token代码库中能精准定位并发死锁等复杂问题,但超过32Ktoken后信息保持率下降5%。该模型采用DynamicThinking机制自动分配计算资源,配合PromptCaching技术可降低长文档查询成本。与竞品相比,Gemini 3.5 Flash在速度(
概要
2026 年 5 月 19 日,Google 在 I/O 大会上正式发布 Gemini 3.5 Flash,上下文窗口达到 1,048,576 token(约 100 万),定位"高性能 Agent + 编码"。本文围绕一个核心问题展开实测:超大上下文窗口在真实代码场景中到底表现如何? 测试通过 kulaai(leadhi.cn)聚合平台完成——它整合了 Gemini、GPT、Claude 等主流模型,国内直连,做横向对比比较方便。
先纠正一个常见误读:Gemini 3.5 Flash 的 API 上限是 100 万 token,不是 200 万。200 万更接近 Kimi K2.6 的目标值。但 100 万 token 已经足够覆盖一个中型 monorepo 的全部源码,实测价值依然很大。
整体架构流程
Gemini 3.5 Flash 引入了 Dynamic Thinking(动态思考) 机制。模型会自动评估问题复杂度,复杂任务分配更多 thinking token,简单任务直接输出,不额外消耗。
核心流程可概括为:
text
text
用户输入 → 难度自动评估 → thinking_level 档位匹配 → 推理执行 → 输出生成 ↓ Low:简单分类,最快响应 Medium(默认):日常编码与文档分析 High:复杂算法设计,深度推理(citation:12)
与上一代不同,3.5 Flash 默认 thinking_level 为 medium,避免了简单查询也消耗大量 token 的问题。配合 1M 上下文窗口和 $0.15/M 的缓存输入价格,长文档重复查询场景的成本可以大幅压缩。
技术名词解释
Gemini 3.5 Flash:Google 于 2026 年 5 月发布的高性能模型。Terminal-Bench 2.1 编码测试 76.2%,超越自家上一代旗舰 3.1 Pro 的 70.3%;MCP Atlas 多工具协调 83.6%,输出速度 289 tokens/秒,是 GPT-5.5 的 4 倍。
Dynamic Thinking:模型根据任务难度自动分配计算资源的机制。通过 thinking_level 参数(low/medium/high)控制,thinking token 按输出价格 $9.00/M 计费。
Prompt Caching(提示缓存):对重复使用的 system prompt 或长文档前缀,缓存命中后输入成本降至原价 10%(0.15/Mvs0.15/Mvs1.50/M)。在 Agent 循环场景中,这一机制可将长程任务成本降低 50% 以上。
MCP Atlas:衡量模型在大规模多工具调用场景下可靠性的基准测试。Gemini 3.5 Flash 得分 83.6%,领先 Claude Opus 4.7 和 GPT-5.5。
技术细节
实测一:15 万 token 代码库精准定位 Bug
准备了一个包含 20 个 Java 源文件、约 15 万 token 的微服务项目。在代码中间故意植入了一个并发死锁 Bug 和一个命名违规。
Gemini 3.5 Flash 约 15 秒给出反馈——精准定位到 ThreadUtil.java 第 78 行的 ConcurrentHashMap 错误使用场景(先判断后写入的线程安全漏洞),同时找出了那项不合规的配置命名。
关键发现:15 万 token 以内,模型的定位精度和逻辑推理能力相当可靠。
实测二:超长上下文下的信息保持率
在更长的上下文下,问题就出现了。超过 32K token 之后,输出质量大约有 5% 的衰减。Google 官方基准也印证了这一点:在 MRCR v2 @ 1M tokens(长上下文检索)测试中,3.5 Flash 得分 77.3%,反而低于 3.1 Pro 的 84.9%,差距 7.6 个百分点。
这意味着:窗口能装下不等于模型都读明白了。关键代码尽量放在上下文的前部,避免"中间丢失"效应。
价格与竞品对比
| 模型 | 输入价格/M | 输出价格/M | 上下文窗口 | 编码能力 |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 | 1M | 76.2% |
| GPT-5.5 | $5.00 | $25-30 | 128K | 82.7% |
| Claude Opus 4.7 | $5.00 | $25.00 | 200K | — |
| Gemini 3.1 Pro | $2.00 | $12.00 | 1M | 70.3% |
一个典型的 10 轮 Agent 循环(每轮 10K 输入/2K 输出),Flash 成本约 0.195,GPT−5.5约0.195,GPT−5.5约0.65,差距超过 3 倍。但 Flash 比前代 3 Flash 直接贵了 3 倍(输入 0.50→0.50→1.50,输出 3.00→3.00→9.00),定位已从"轻量快速"升级为"高性能 Agent"。
实战建议
- 善用缓存:固定 system prompt 标记 cache_control,缓存命中后成本降 90%
- thinking_budget 分档:简单任务设 0,日常生成设 512,复杂推理设 1024-2048,慎用 -1(不限制)
- 关键信息放前 32K:超过这个长度衰减明显
- 先扫描再深挖:第一轮让模型输出大纲,第二轮针对具体模块提问
小结
Gemini 3.5 Flash 的核心价值不在于"100 万 token 能装多少代码",而在于它证明了 速度、能力、成本三角可以被同时优化。289 tokens/秒的输出速度、76.2% 的编码得分、$0.15/M 的缓存价格——这三个数字组合在一起,让它成为 2026 年 Agent 工作流和代码生成场景的务实选择。
但也有明确短板:超长上下文下的信息保持率(MRCR v2 77.3%)和深度抽象推理(ARC-AGI-2 72.1%)仍不如 3.1 Pro。对于需要百万级文档精确提取的场景,建议等 6 月发布的 3.5 Pro 再做评估。
2026 年的模型竞争已经不是"谁窗口大"的问题了。 100 万 token 快成标配,真正的赛点在大窗口下的信息保持率、Agent 循环的工程总成本,以及 thinking_level 的精细控制。拿自己的项目喂一遍,体感比任何评测都靠谱。
数据基于 2026 年 6月 Google I/O 官方发布及公开技术文档整理,模型定价和功能以官方最新公告为准。
更多推荐



所有评论(0)