【Google AI Studio】模型运行配置面板（详解）

胖墩会武术

656人浏览 · 2026-04-08 11:46:52

胖墩会武术 · 2026-04-08 11:46:52 发布

这是 Google AI Studio（或类似 Gemini API 调用界面）中的模型运行配置面板。

1. 模型配置

Gemini 3 Flash Preview

作用： 选择当前对话或任务所使用的底层模型。
详细介绍： Gemini 3 Flash Preview 是 Google 推出的 Gemini 3 系列中的轻量级模型，主要特点如下：

低延迟：响应速度快，适合实时交互场景（如聊天、语音助手）。
高吞吐量：单位时间内可处理大量请求，适合批量任务。
成本较低：相比更强大的 Gemini Pro 或 Ultra 系列，推理成本更低。
“Preview” 含义：表示该模型当前为预览版，功能和行为可能仍在调整中，不建议直接用于生产环境的关键任务。

适用场景：

实时对话系统
内容过滤、摘要生成
简单代码补全
教育、翻译、客服等对速度要求较高的任务

注意事项：

预览版可能不支持所有功能（如长上下文、函数调用等）。
若需要更高质量或更复杂推理，建议切换为 Gemini 3 Pro 或其他更高版本。

System instructions（系统指令）

作用： 为模型设定行为准则、角色身份或回复格式，优先级高于普通用户输入。
详细介绍： 系统指令是一种顶级提示（meta-prompt），用于在整个对话过程中控制模型的风格、目标和输出规范。例如：

角色设定： “你是一位幽默的翻译官，擅长用轻松的方式翻译技术文档。”
行为约束： “不要回答任何与医疗相关的问题。”
格式要求： “每次回答必须以‘总结：’开头，并使用 Markdown 列表。”

优先级说明： 系统指令的优先级 高于用户输入。即使用户要求模型违反系统指令，模型也会优先遵循系统指令（受安全机制约束）。

最佳实践：

清晰、简洁、具体
避免与用户指令矛盾
可以组合多个要求（角色 + 格式 + 限制）

示例：

你是一位严谨的代码审查助手。  
你只回答与 Python 代码相关的问题。  
每次回答必须先指出潜在问题，再给出优化建议。

No API Key

作用： 表示当前未配置有效的 API 密钥，处于免费匿名使用模式。
详细介绍： No API Key 不是一个可调节的参数，而是一个状态指示器，含义如下：

状态	含义	使用限制
`No API Key`	未绑定任何 API 密钥	仅限 Google AI Studio 在线使用，受严格的速率和次数限制
`API Key: xxx`	已绑定有效 API 密钥	可编程调用，支持更高配额、生产环境使用

无 API Key 时的限制：

无法通过代码（Python、JavaScript 等）调用模型
每分钟请求数、每天 Token 数有明确上限（通常较低）
可能无法使用某些高级工具（如函数调用、代码执行）
数据可能用于模型改进（具体见 Google 隐私条款）

何时需要添加 API Key：

将模型集成到自己的应用或服务中
需要更高的请求频率或更大的 Token 额度
希望获得稳定的生产级性能
需要记录调用日志或进行成本分析

如何添加 API Key：

访问 Google AI Studio 或 Google Cloud Console
创建或获取 Gemini API Key
在当前界面中点击 No API Key，粘贴并保存
状态会更新为 API Key: your_key_here

费用说明：

Gemini 3 Flash 本身成本较低
Google 通常提供免费试用额度（如 $5–$10）
超出免费额度后按 Token 用量计费，可在 Cloud Console 设置预算告警

安全建议：

不要将 API Key 提交到公开代码仓库
定期轮换密钥
在 Cloud Console 中设置用量上限，防止意外超额

2. 基础配置

Temperature（温度）

作用： 控制模型回复的随机性、创造性与确定性之间的平衡。
详细介绍： Temperature 是一个 0.0 到 2.0 之间的浮点数（不同模型可能范围略有差异），用于调整模型输出 token 的概率分布。

低温度（0.0 – 0.3）：
模型倾向于选择概率最高的 token，回答确定、保守、事实性强，几乎每次对相同输入都会给出相同或高度相似的回复。
✅ 适用场景：事实问答、代码生成、数学计算、数据提取。
中等温度（0.4 – 0.8）：
输出既保持一定的事实性，又具备适度的多样性。
✅ 适用场景：日常对话、内容改写、文本摘要。
高温度（0.9 – 2.0）：
模型更倾向于选择低概率的 token，回答多样、有创意、富有变化，但可能产生不准确或“幻觉”内容。
✅ 适用场景：创意写作、头脑风暴、角色扮演、诗歌生成。

示例对比：

输入：“天空是什么颜色的？”

Temperature = 0.1 → “天空通常是蓝色的。”

Temperature = 1.5 → “天空可以是湛蓝的、绯红的、甚至紫罗兰色的，取决于时间和心情。”

注意事项：

温度越高，输出越不可预测，越容易偏离事实。
通常与 Top P 配合使用，但建议只调整其中一项，另一项保持默认。

Media resolution（媒体分辨率）

作用： 当上传图片、视频或其他媒体文件时，决定模型对媒体内容的解析精度。
详细介绍： Media resolution 控制模型在视觉编码阶段对媒体文件的采样粒度。

低分辨率：
快速处理，消耗 token 少，但可能丢失细节（如小字体、远处物体）。
✅ 适用场景：快速识图、简单的物体检测、低延迟需求。
高分辨率：
保留更多视觉细节（如文字、纹理、微小物体），识别准确率更高，但会显著增加 token 消耗和计算时间。
✅ 适用场景：文档图像中的文字识别、医学影像分析、质量检测。

实际影响：

分辨率	Token 消耗	处理时间	细节保留
低	少	快	低
中	中等	中等	中等
高	多（可能翻倍）	慢	高

注意事项：

并非所有模型都支持此选项（Gemini 系列通常支持）。
高分辨率不保证 100% 准确，只是提供更多信息给模型。
如果你的任务依赖图片中的小文字或细微特征，请选择高分辨率。

Thinking level（思考级别）

作用： 决定模型在生成最终答案之前，进行内部推理链的深度与复杂度。
详细介绍： Thinking level 控制模型是否启用以及投入多少计算资源用于“内部思考”（类似 Chain-of-Thought 但由模型自动完成）。

Low / Off / None：模型直接生成答案，不进行额外的内部推理。
- 优点：响应极快，适合简单任务。
- 缺点：在逻辑、数学、多步推理任务上表现较差。
- ✅ 适用场景：常识问答、简单翻译、闲聊、内容分类。
Medium（若有）：模型进行适度的内部推理，平衡速度与准确性。
- ✅ 适用场景：中等复杂的任务，如段落总结、简单代码修复。
High：模型会进行多步内部推理、自我验证、路径回溯等。
- 优点：显著提升复杂问题的正确率（如数学证明、逻辑谜题、多跳问答）。
- 缺点：响应时间明显增加（可能数秒甚至更久），消耗更多 token。
- ✅ 适用场景：数学题求解、复杂代码调试、科学推理、战略规划。

实际对比示例：

问题：“一个农场里有鸡和兔子共 35 个头和 94 只脚，问鸡和兔子各有多少只？”

Thinking level = Low → 可能直接猜错或跳过步骤。

Thinking level = High → 内部列出方程并求解，最终给出正确答案（鸡 23 只，兔子 12 只）。

注意事项：

高思考级别会增加延迟和成本，仅推荐在需要多步推理时启用。
对于简单任务，高思考级别可能产生“过度思考”，反而引入不必要的解释。
具体级别名称可能因模型版本而异（如 None / Basic / Advanced）。

3. 工具配置（Tools）

Structured outputs（结构化输出）

作用： 强制模型按照预定义的 JSON Schema 或其他结构化格式返回数据，而不是自由文本。
详细介绍： Structured outputs 是一项让模型输出可解析、可验证、类型安全的数据的能力。

工作原理：你提供一个 JSON Schema（如对象、数组、枚举等定义），模型会确保其输出严格符合该结构，而非偶尔格式正确的自由文本。
主要优势：
- 可靠性：减少手动解析文本的麻烦和错误。
- 类型安全：可直接映射到编程语言中的类/结构体（如 TypeScript interface、Pydantic model）。
- 便于集成：输出可以直接用于 API 调用、数据库存储或前端渲染。

典型示例：

// 你提供的 Schema
{
  "name": "person_info",
  "schema": {
    "type": "object",
    "properties": {
      "name": {"type": "string"},
      "age": {"type": "integer"},
      "is_student": {"type": "boolean"}
    },
    "required": ["name", "age"]
  }
}

// 模型输出（严格匹配）
{"name": "张三", "age": 25, "is_student": false}

适用场景：

数据提取（从非结构化文本中抽取出结构化字段）
函数参数自动填充
表单生成、API 响应构造
与低代码平台或工作流引擎集成

注意事项：

并非所有模型都支持结构化输出（Gemini 3 Flash 通常支持，但需确认版本）。
过于复杂的 Schema 可能增加模型出错概率。
建议结合低 Temperature（如 0.1）使用，以提高格式遵循度。

Code execution（代码执行）

作用： 允许模型实际生成并运行 Python 代码，然后获取代码执行结果用于后续推理。

详细介绍： Code execution 是一种工具能力，让模型不再只是“输出代码”，而是真正执行它。

工作流程：
1. 模型分析问题 → 决定需要编写代码。
2. 模型生成 Python 代码（通常包含输入数据、计算逻辑）。
3. 后端安全执行该代码（隔离环境）。
4. 执行结果（stdout、stderr、返回值）返回给模型。
5. 模型基于结果继续推理或直接输出答案。
典型能力：
- 数学计算（如微积分、线性代数）
- 数据分析（pandas、numpy 操作）
- 数据可视化（生成图表代码，但图片可能需单独处理）
- 文件处理（读取 CSV、JSON 等）
- 代码验证（测试自己的输出）

适用场景：

复杂数学问题（需要数值计算或符号求解）
数据清洗与统计分析
代码调试（让模型运行并修正自己的代码）
模拟、随机过程、蒙特卡洛方法

注意事项：

执行环境是受限且隔离的，无法访问本地文件系统、网络或敏感环境变量。
长时间运行或无限循环会被自动终止。
并非所有模型支持（Gemini 3 Flash 支持，但可能有速率限制）。
输出可能包含中间结果，需要模型进一步处理才能形成最终答案。

Function calling（函数调用）

作用： 允许模型请求调用你预先定义的外部函数或 API，并自动填入参数，然后由你的应用执行并将结果返回给模型。
详细介绍： Function calling（也称工具调用）是模型与外部世界交互的桥梁。

工作流程：
1. 你定义一组函数（如 get_weather(city)、send_email(to, subject)），并提供函数名、描述、参数 Schema。
2. 模型根据用户输入判断是否需要调用某个函数。
3. 模型不直接执行函数，而是返回一个结构化的调用请求（函数名 + 参数值）。
4. 你的应用负责执行该函数（调用真实 API、数据库等）。
5. 你将执行结果返回给模型。
6. 模型基于结果继续对话或生成最终答案。
典型示例：

用户：“北京今天天气怎么样？”
模型返回：call get_weather(city="Beijing")
你的应用执行真实天气 API → 得到 {"temp": 22, "condition": "晴"}
模型最终回复：“北京今天晴天，气温 22°C。”

适用场景：

实时信息获取（天气、股票、新闻）
数据库查询（用户信息、订单状态）
业务操作（发送邮件、创建工单、下单）
与内部系统集成（CRM、ERP）

注意事项：

模型只负责“请求”调用，实际执行由你的代码完成。
函数描述要清晰、准确，否则模型可能填错参数。
建议对参数进行验证和清理，防止注入攻击。
可以同时提供多个函数，模型会选择合适的调用。

Grounding（知识锚定 / 溯源）

作用： 让模型引用外部可信数据源（如搜索引擎、地图服务）来回答用户问题，减少“幻觉”并提高事实准确性。
详细介绍： Grounding 是一种检索增强生成（RAG）的集成能力，使模型不依赖纯参数化知识，而是动态查询外部知识库。

Google Search（谷歌搜索）

作用：允许模型实时搜索网络以获取最新、最准确的信息。
特点：
- 自动处理搜索查询构造。
- 搜索结果会作为上下文提供给模型。
- 模型会引用搜索来源（如链接、标题），方便用户验证。
优势：
- 大幅减少事实性幻觉。
- 可以回答训练数据截止日期之后的问题（如“昨天发生了什么新闻？”）。
- 提高对长尾、专业、冷门知识的准确性。
适用场景：
- 实时新闻、股价、赛事比分
- 产品价格、最新研究进展
- 验证事实、查证引用

Google Maps（谷歌地图）

作用：允许模型访问地理位置数据和地图服务。
能力：
- 地点搜索（如“附近的咖啡店”）
- 路线规划（驾车、公交、步行时间）
- 距离计算、地点详情（营业时间、评分、地址）
适用场景：
- 旅行规划、导航建议
- 本地商家推荐
- 地理围栏、配送范围判断

注意事项：

Grounding 会显著增加延迟（因为需要外部查询）。
搜索结果的权威性由外部来源决定，模型仍可能错误解读。
使用 Grounding 时，建议降低 Temperature（如 0.2）以保持事实一致性。
需要网络连接，且可能有查询配额限制（取决于 API Key 等级）。

URL context（URL 上下文）

作用： 允许模型直接读取你提供的网页链接内容，并将其作为对话上下文的一部分。
详细介绍： URL context 是一种便捷的内容获取方式，无需你手动复制粘贴网页全文。

工作原理：
1. 用户在输入中提供一个或多个 URL（如 https://example.com/article）。
2. 模型（或后端服务）会自动抓取该 URL 的内容（通常是 HTML 的主要文本部分）。
3. 抓取到的内容被转换为纯文本或 Markdown，并注入到模型上下文中。
4. 模型基于该内容回答用户问题。
支持的资源类型：
- 新闻文章、博客帖子
- 技术文档、API 参考
- GitHub README、维基百科页面
- PDF 文件（部分模型支持）
典型用途：
- “总结这篇文章的内容：[URL]”
- “根据这个技术文档，告诉我如何配置某个参数。”
- “对比这两个网页中的观点：[URL1] 和 [URL2]”

注意事项：

并非所有网页都能成功抓取（如需要登录、有反爬机制、动态渲染的 SPA 页面）。
模型可能会读取到大量不相关内容（如导航栏、广告），需要模型本身有能力过滤。
抓取的内容会消耗输入 token，长网页可能很快填满上下文窗口。
建议结合低 Temperature 使用，以忠实还原原文信息。

4. 高级设置（Advanced settings）

Safety settings（安全设置）

作用： 过滤模型输出的敏感内容，防止生成有害、不当或违反政策的信息。
详细介绍： Safety settings 是一组可配置的内容安全过滤器，用于控制模型在四个核心类别上的输出行为。

可过滤的敏感类别（通常包括）：
- 仇恨言论：针对种族、宗教、性别等的攻击性内容。
- 骚扰：侮辱、威胁、霸凌等内容。
- 色情内容：露骨的性描写或色情材料。
- 暴力与血腥：详细描述暴力行为、伤害、死亡等内容。
- 危险内容：指导非法活动、自残、制造武器等。

阈值级别（不同平台名称可能略有差异）：

级别	含义	适用场景
低 / 仅最严重	只拦截最极端的违规内容	创意写作、艺术表达（需谨慎）
中 / 中等	拦截明显的有害内容	通用对话、客服系统
高 / 严格	拦截大部分可疑内容	教育场景、儿童应用、企业合规
阻止全部	几乎不允许任何敏感词	高度受限的内部系统

工作原理：
1. 模型生成候选输出。
2. 安全分类器对输出进行评估（每个类别给出概率分数）。
3. 如果任一类别超过设定阈值，该输出被阻止或替换（如返回默认安全响应）。

适用场景：

面向未成年人的应用
公开聊天机器人（避免法律风险）
企业内部的合规内容生成
社交媒体内容审核辅助

注意事项：

安全设置不是绝对完美的，可能出现误报（安全内容被拦截）或漏报（有害内容通过）。
过高的阈值可能导致模型拒绝回答许多正常问题（如“什么是性教育？”）。
建议从中等阈值开始，根据实际使用情况调整。
安全设置无法完全禁用，Google 有最低安全基线。

Add stop sequence（添加停止序列）

作用： 指定一个或多个字符串作为停止信号，一旦模型生成到该字符串，立即终止输出。
详细介绍： Stop sequences 是一种输出控制机制，用于精确限制模型在何处停止生成。

工作原理：
1. 你定义一个或多个字符串（如 \n\n、END、---）。
2. 模型逐 token 生成文本。
3. 如果生成的文本中出现该字符串（且未被转义），生成过程立即停止。
4. 停止序列本身不会被包含在最终输出中（不同平台行为可能略有差异）。

常见用法：

停止序列	效果
`\n\n`	在第一个空行处停止（适合生成单个段落）
`END`	在模型输出 “END” 时停止
`###`	在 Markdown 分隔符处停止
`Q:`	在多轮对话模板中停止，防止模型生成下一轮问题
`\n答案：`	在特定结构输出中停止

典型示例：

系统指令：“列出三点建议，最后输出’END’”
停止序列：END
模型输出：“1. 多读书\n2. 多运动\n3. 多思考\nEND” → 在 END 处停止，输出为前三点。

适用场景：

控制回复长度（如限制为 3 个句子）
多轮对话模板（防止模型越界生成）
结构化输出（如 JSON 结束后停止）
避免模型重复或自我纠正

注意事项：

可以添加多个停止序列（通常最多 4-5 个）。
停止序列是精确字符串匹配，注意大小写和空格（END ≠ End）。
特殊字符如换行符 \n、制表符 \t 需要使用转义写法（具体看平台文档）。
如果模型从不生成停止序列，输出会一直持续到 Output length 上限。

Output length（输出长度）

作用： 限制模型生成回复的最大 token 数量（token 是文本的基本单位，包括单词、标点、空格）。
详细介绍： Output length 是一个硬性上限，用于控制模型单次回复的长度。

什么是 Token？
- 英文：1 token ≈ 0.75 个单词（例如 “Hello world” 约 2 token）。
- 中文：1 token ≈ 0.5–1 个汉字（取决于模型分词器）。
- 标点、空格、换行符也都计入 token。

配置建议：

输出长度	适用场景
100–200	简短问答、确认回复、单句翻译
500–1000	日常对话、段落摘要、产品描述
2000–4000	详细解释、技术文档、故事创作
8000+	长篇文章、代码生成、复杂分析
65536	几乎不限制（模型最大上下文上限）

当前设置 65536 的含义：
- 这是 Gemini 3 Flash 的输出 token 上限（也可能是上下文窗口上限）。
- 设置为该值意味着几乎不限制输出长度，模型可以一直生成直到自然停止或达到其他限制（如停止序列）。
- 适合需要极长输出的场景（如生成整本书、完整代码库）。

注意事项：

输出长度越长，延迟越高、成本越高（按 token 计费）。
模型可能不会真的用到全部长度，只是允许它这样做。
过长的输出可能包含重复、跑题或低质量内容。
建议根据实际需求设置合理长度，而不是一味拉到最大。

Top P（核采样）

作用： 动态选择模型下一个 token 的候选集合，控制输出的多样性。
详细介绍： Top P（也称 nucleus sampling）是一种采样策略，与 Temperature 类似但工作方式不同。

工作原理：
1. 模型为下一个 token 计算出所有可能候选的概率分布。
2. 将所有候选 token 按概率从高到低排序。
3. 从高到低累加概率，直到累计概率达到 P 值（如 0.95）。
4. 模型只从这组 token 中随机选择下一个，忽略概率更低的 token。

数值含义：

Top P 值	候选 token 数量	输出特性
0.1	极少（最可能的前几个）	非常确定、重复性高
0.5	中等	平衡确定性与多样性
0.95	很多（包含大部分合理选项）	多样性高、创意性强
1.0	所有 token	完全不受限制，可能极不相关

直观对比：
假设下一个 token 的概率分布为：猫(0.4)、狗(0.3)、鸟(0.15)、鱼(0.1)、车(0.05)…
- Top P = 0.5 → 累计概率 0.4+0.3=0.7 > 0.5，候选集 = {猫, 狗}
- Top P = 0.9 → 累计到 0.4+0.3+0.15+0.1=0.95 > 0.9，候选集 = {猫, 狗, 鸟, 鱼}

Temperature vs Top P：

维度	Temperature	Top P
调节方式	平滑/锐化概率分布	动态裁剪候选集大小
典型范围	0.0 – 2.0	0.0 – 1.0
高值效果	低概率词概率提升	候选集扩大
最佳实践	与 Top P 二选一	与 Temperature 二选一

推荐组合：

保守/事实性任务：Temperature = 0.1，Top P = 1.0（或保持默认）
中等多样性：Temperature = 0.7，Top P = 0.9
高创意任务：Temperature = 1.0，Top P = 0.95
通常建议：只调整其中一个，另一个设为 1.0 或默认值，避免相互干扰。

适用场景：

Top P 较低（0.1–0.3）：代码生成、数学证明、数据格式化
Top P 中等（0.5–0.7）：通用对话、翻译、摘要
Top P 较高（0.9–0.99）：创意写作、头脑风暴、诗歌

注意事项：

Top P = 1.0 并不意味着“最随机”，而是“不裁剪”，所有 token 都可能被选中。
Top P 与 Temperature 同时调节可能导致不可预测的结果，建议只用其一。
不同模型对 Top P 的响应可能略有差异，建议先小范围测试。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Codex开发嵌入式教程：使用AI为LVGL开发板编写贪吃蛇游戏并自动测试

AI编程社区

用了一年 AI 工具后，我发现 ChatGPT Plus 最值钱的地方不是回答问题

用了一段时间后，我发现 ChatGPT Plus 最值钱的地方不是“回答问题”，而是提高工作流效率。它可以帮你整理思路，帮你拆需求，帮你写初稿，帮你读代码，帮你查 Bug，帮你学新技术。它不是万能程序员，但确实是一个很实用的开发助手。如果你只是偶尔用一次，可能感觉不明显。但如果你每天都在写代码、查资料、改 Bug、写文档，它的价值会不断累积。