Gemini 3.5 上下文窗口实测：200 万 token 到底能装下多少代码？

Google发布Gemini 3.5 Flash模型，具备100万token上下文窗口，定位高性能Agent与编码场景。测试显示，在15万token代码库中能精准定位并发死锁等复杂问题，但超过32Ktoken后信息保持率下降5%。该模型采用DynamicThinking机制自动分配计算资源，配合PromptCaching技术可降低长文档查询成本。与竞品相比，Gemini 3.5 Flash在速度（

库拉镜像AI

55人浏览 · 2026-06-06 10:04:48

库拉镜像AI · 2026-06-06 10:04:48 发布

概要

2026 年 5 月 19 日，Google 在 I/O 大会上正式发布 Gemini 3.5 Flash，上下文窗口达到 1,048,576 token（约 100 万），定位"高性能 Agent + 编码"。本文围绕一个核心问题展开实测：超大上下文窗口在真实代码场景中到底表现如何？ 测试通过 kulaai（leadhi.cn）聚合平台完成——它整合了 Gemini、GPT、Claude 等主流模型，国内直连，做横向对比比较方便。

先纠正一个常见误读：Gemini 3.5 Flash 的 API 上限是 100 万 token，不是 200 万。200 万更接近 Kimi K2.6 的目标值。但 100 万 token 已经足够覆盖一个中型 monorepo 的全部源码，实测价值依然很大。

整体架构流程

Gemini 3.5 Flash 引入了 Dynamic Thinking（动态思考） 机制。模型会自动评估问题复杂度，复杂任务分配更多 thinking token，简单任务直接输出，不额外消耗。

核心流程可概括为：

text

text

用户输入 → 难度自动评估 → thinking_level 档位匹配 → 推理执行 → 输出生成  ↓  Low：简单分类，最快响应  Medium（默认）：日常编码与文档分析  High：复杂算法设计，深度推理(citation:12)

与上一代不同，3.5 Flash 默认 thinking_level 为 medium，避免了简单查询也消耗大量 token 的问题。配合 1M 上下文窗口和 $0.15/M 的缓存输入价格，长文档重复查询场景的成本可以大幅压缩。

技术名词解释

Gemini 3.5 Flash：Google 于 2026 年 5 月发布的高性能模型。Terminal-Bench 2.1 编码测试 76.2%，超越自家上一代旗舰 3.1 Pro 的 70.3%；MCP Atlas 多工具协调 83.6%，输出速度 289 tokens/秒，是 GPT-5.5 的 4 倍。

Dynamic Thinking：模型根据任务难度自动分配计算资源的机制。通过 thinking_level 参数（low/medium/high）控制，thinking token 按输出价格 $9.00/M 计费。

Prompt Caching（提示缓存）：对重复使用的 system prompt 或长文档前缀，缓存命中后输入成本降至原价 10%（0.15/Mvs0.15/Mvs1.50/M）。在 Agent 循环场景中，这一机制可将长程任务成本降低 50% 以上。

MCP Atlas：衡量模型在大规模多工具调用场景下可靠性的基准测试。Gemini 3.5 Flash 得分 83.6%，领先 Claude Opus 4.7 和 GPT-5.5。

技术细节

实测一：15 万 token 代码库精准定位 Bug

准备了一个包含 20 个 Java 源文件、约 15 万 token 的微服务项目。在代码中间故意植入了一个并发死锁 Bug 和一个命名违规。

Gemini 3.5 Flash 约 15 秒给出反馈——精准定位到 ThreadUtil.java 第 78 行的 ConcurrentHashMap 错误使用场景（先判断后写入的线程安全漏洞），同时找出了那项不合规的配置命名。

关键发现：15 万 token 以内，模型的定位精度和逻辑推理能力相当可靠。

实测二：超长上下文下的信息保持率

在更长的上下文下，问题就出现了。超过 32K token 之后，输出质量大约有 5% 的衰减。Google 官方基准也印证了这一点：在 MRCR v2 @ 1M tokens（长上下文检索）测试中，3.5 Flash 得分 77.3%，反而低于 3.1 Pro 的 84.9%，差距 7.6 个百分点。

这意味着：窗口能装下不等于模型都读明白了。关键代码尽量放在上下文的前部，避免"中间丢失"效应。

价格与竞品对比

模型	输入价格/M	输出价格/M	上下文窗口	编码能力
Gemini 3.5 Flash	$1.50	$9.00	1M	76.2%
GPT-5.5	$5.00	$25-30	128K	82.7%
Claude Opus 4.7	$5.00	$25.00	200K	—
Gemini 3.1 Pro	$2.00	$12.00	1M	70.3%

一个典型的 10 轮 Agent 循环（每轮 10K 输入/2K 输出），Flash 成本约 0.195，GPT−5.5约0.195，GPT−5.5约0.65，差距超过 3 倍。但 Flash 比前代 3 Flash 直接贵了 3 倍（输入 0.50→0.50→1.50，输出 3.00→3.00→9.00），定位已从"轻量快速"升级为"高性能 Agent"。

实战建议

善用缓存：固定 system prompt 标记 cache_control，缓存命中后成本降 90%
thinking_budget 分档：简单任务设 0，日常生成设 512，复杂推理设 1024-2048，慎用 -1（不限制）
关键信息放前 32K：超过这个长度衰减明显
先扫描再深挖：第一轮让模型输出大纲，第二轮针对具体模块提问

小结

Gemini 3.5 Flash 的核心价值不在于"100 万 token 能装多少代码"，而在于它证明了 速度、能力、成本三角可以被同时优化。289 tokens/秒的输出速度、76.2% 的编码得分、$0.15/M 的缓存价格——这三个数字组合在一起，让它成为 2026 年 Agent 工作流和代码生成场景的务实选择。

但也有明确短板：超长上下文下的信息保持率（MRCR v2 77.3%）和深度抽象推理（ARC-AGI-2 72.1%）仍不如 3.1 Pro。对于需要百万级文档精确提取的场景，建议等 6 月发布的 3.5 Pro 再做评估。

2026 年的模型竞争已经不是"谁窗口大"的问题了。 100 万 token 快成标配，真正的赛点在大窗口下的信息保持率、Agent 循环的工程总成本，以及 thinking_level 的精细控制。拿自己的项目喂一遍，体感比任何评测都靠谱。

数据基于 2026 年 6月 Google I/O 官方发布及公开技术文档整理，模型定价和功能以官方最新公告为准。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

2026年多协议API网关深度横评：架构演进、生产落地与Claude API中转选型实践

为屏蔽营销噪声，本次构建了覆盖延迟中位数、P95长尾延迟、可用性、多协议适配、计费细粒度及企业管控能力的标准化矩阵。测试周期28天，累计执行200余万次API调用，模拟从短文本补全（约800输入token、400输出token）到十万级上下文文档分析的混合负载。环境统一部署于AWS c6g.4xlarge实例，网络探针覆盖华北、华东、新加坡、法兰克福四区域。