【Google AI Studio】模型运行配置面板(详解)
这是 Google AI Studio(或类似 Gemini API 调用界面)中的模型运行配置面板。
1. 模型配置
Gemini 3 Flash Preview
作用: 选择当前对话或任务所使用的底层模型。
详细介绍: Gemini 3 Flash Preview 是 Google 推出的 Gemini 3 系列中的轻量级模型,主要特点如下:
- 低延迟:响应速度快,适合实时交互场景(如聊天、语音助手)。
- 高吞吐量:单位时间内可处理大量请求,适合批量任务。
- 成本较低:相比更强大的 Gemini Pro 或 Ultra 系列,推理成本更低。
- “Preview” 含义:表示该模型当前为预览版,功能和行为可能仍在调整中,不建议直接用于生产环境的关键任务。
适用场景:
- 实时对话系统
- 内容过滤、摘要生成
- 简单代码补全
- 教育、翻译、客服等对速度要求较高的任务
注意事项:
- 预览版可能不支持所有功能(如长上下文、函数调用等)。
- 若需要更高质量或更复杂推理,建议切换为 Gemini 3 Pro 或其他更高版本。
System instructions(系统指令)
作用: 为模型设定行为准则、角色身份或回复格式,优先级高于普通用户输入。
详细介绍: 系统指令是一种顶级提示(meta-prompt),用于在整个对话过程中控制模型的风格、目标和输出规范。例如:
- 角色设定: “你是一位幽默的翻译官,擅长用轻松的方式翻译技术文档。”
- 行为约束: “不要回答任何与医疗相关的问题。”
- 格式要求: “每次回答必须以‘总结:’开头,并使用 Markdown 列表。”
优先级说明: 系统指令的优先级 高于用户输入。即使用户要求模型违反系统指令,模型也会优先遵循系统指令(受安全机制约束)。
最佳实践:
- 清晰、简洁、具体
- 避免与用户指令矛盾
- 可以组合多个要求(角色 + 格式 + 限制)
示例:
你是一位严谨的代码审查助手。
你只回答与 Python 代码相关的问题。
每次回答必须先指出潜在问题,再给出优化建议。
No API Key
作用: 表示当前未配置有效的 API 密钥,处于免费匿名使用模式。
详细介绍: No API Key 不是一个可调节的参数,而是一个状态指示器,含义如下:
| 状态 | 含义 | 使用限制 |
|---|---|---|
No API Key |
未绑定任何 API 密钥 | 仅限 Google AI Studio 在线使用,受严格的速率和次数限制 |
API Key: xxx |
已绑定有效 API 密钥 | 可编程调用,支持更高配额、生产环境使用 |
无 API Key 时的限制:
- 无法通过代码(Python、JavaScript 等)调用模型
- 每分钟请求数、每天 Token 数有明确上限(通常较低)
- 可能无法使用某些高级工具(如函数调用、代码执行)
- 数据可能用于模型改进(具体见 Google 隐私条款)
何时需要添加 API Key:
- 将模型集成到自己的应用或服务中
- 需要更高的请求频率或更大的 Token 额度
- 希望获得稳定的生产级性能
- 需要记录调用日志或进行成本分析
如何添加 API Key:
- 访问 Google AI Studio 或 Google Cloud Console
- 创建或获取 Gemini API Key
- 在当前界面中点击
No API Key,粘贴并保存 - 状态会更新为
API Key: your_key_here
费用说明:
- Gemini 3 Flash 本身成本较低
- Google 通常提供免费试用额度(如 $5–$10)
- 超出免费额度后按 Token 用量计费,可在 Cloud Console 设置预算告警
安全建议:
- 不要将 API Key 提交到公开代码仓库
- 定期轮换密钥
- 在 Cloud Console 中设置用量上限,防止意外超额
2. 基础配置
Temperature(温度)
作用: 控制模型回复的随机性、创造性与确定性之间的平衡。
详细介绍: Temperature 是一个 0.0 到 2.0 之间的浮点数(不同模型可能范围略有差异),用于调整模型输出 token 的概率分布。
-
低温度(0.0 – 0.3):
模型倾向于选择概率最高的 token,回答确定、保守、事实性强,几乎每次对相同输入都会给出相同或高度相似的回复。
✅ 适用场景:事实问答、代码生成、数学计算、数据提取。 -
中等温度(0.4 – 0.8):
输出既保持一定的事实性,又具备适度的多样性。
✅ 适用场景:日常对话、内容改写、文本摘要。 -
高温度(0.9 – 2.0):
模型更倾向于选择低概率的 token,回答多样、有创意、富有变化,但可能产生不准确或“幻觉”内容。
✅ 适用场景:创意写作、头脑风暴、角色扮演、诗歌生成。
示例对比:
输入:“天空是什么颜色的?”
- Temperature = 0.1 → “天空通常是蓝色的。”
- Temperature = 1.5 → “天空可以是湛蓝的、绯红的、甚至紫罗兰色的,取决于时间和心情。”
注意事项:
- 温度越高,输出越不可预测,越容易偏离事实。
- 通常与
Top P配合使用,但建议只调整其中一项,另一项保持默认。
Media resolution(媒体分辨率)
作用: 当上传图片、视频或其他媒体文件时,决定模型对媒体内容的解析精度。
详细介绍: Media resolution 控制模型在视觉编码阶段对媒体文件的采样粒度。
-
低分辨率:
快速处理,消耗 token 少,但可能丢失细节(如小字体、远处物体)。
✅ 适用场景:快速识图、简单的物体检测、低延迟需求。 -
高分辨率:
保留更多视觉细节(如文字、纹理、微小物体),识别准确率更高,但会显著增加 token 消耗和计算时间。
✅ 适用场景:文档图像中的文字识别、医学影像分析、质量检测。
实际影响:
| 分辨率 | Token 消耗 | 处理时间 | 细节保留 |
|---|---|---|---|
| 低 | 少 | 快 | 低 |
| 中 | 中等 | 中等 | 中等 |
| 高 | 多(可能翻倍) | 慢 | 高 |
注意事项:
- 并非所有模型都支持此选项(Gemini 系列通常支持)。
- 高分辨率不保证 100% 准确,只是提供更多信息给模型。
- 如果你的任务依赖图片中的小文字或细微特征,请选择高分辨率。
Thinking level(思考级别)
作用: 决定模型在生成最终答案之前,进行内部推理链的深度与复杂度。
详细介绍: Thinking level 控制模型是否启用以及投入多少计算资源用于“内部思考”(类似 Chain-of-Thought 但由模型自动完成)。
-
Low / Off / None:模型直接生成答案,不进行额外的内部推理。
- 优点:响应极快,适合简单任务。
- 缺点:在逻辑、数学、多步推理任务上表现较差。
- ✅ 适用场景:常识问答、简单翻译、闲聊、内容分类。
-
Medium(若有):模型进行适度的内部推理,平衡速度与准确性。
- ✅ 适用场景:中等复杂的任务,如段落总结、简单代码修复。
-
High:模型会进行多步内部推理、自我验证、路径回溯等。
- 优点:显著提升复杂问题的正确率(如数学证明、逻辑谜题、多跳问答)。
- 缺点:响应时间明显增加(可能数秒甚至更久),消耗更多 token。
- ✅ 适用场景:数学题求解、复杂代码调试、科学推理、战略规划。
实际对比示例:
问题:“一个农场里有鸡和兔子共 35 个头和 94 只脚,问鸡和兔子各有多少只?”
- Thinking level = Low → 可能直接猜错或跳过步骤。
- Thinking level = High → 内部列出方程并求解,最终给出正确答案(鸡 23 只,兔子 12 只)。
注意事项:
- 高思考级别会增加延迟和成本,仅推荐在需要多步推理时启用。
- 对于简单任务,高思考级别可能产生“过度思考”,反而引入不必要的解释。
- 具体级别名称可能因模型版本而异(如
None/Basic/Advanced)。
3. 工具配置(Tools)
Structured outputs(结构化输出)
作用: 强制模型按照预定义的 JSON Schema 或其他结构化格式返回数据,而不是自由文本。
详细介绍: Structured outputs 是一项让模型输出可解析、可验证、类型安全的数据的能力。
-
工作原理: 你提供一个 JSON Schema(如对象、数组、枚举等定义),模型会确保其输出严格符合该结构,而非偶尔格式正确的自由文本。
-
主要优势:
- 可靠性:减少手动解析文本的麻烦和错误。
- 类型安全:可直接映射到编程语言中的类/结构体(如 TypeScript interface、Pydantic model)。
- 便于集成:输出可以直接用于 API 调用、数据库存储或前端渲染。
-
典型示例:
// 你提供的 Schema { "name": "person_info", "schema": { "type": "object", "properties": { "name": {"type": "string"}, "age": {"type": "integer"}, "is_student": {"type": "boolean"} }, "required": ["name", "age"] } } // 模型输出(严格匹配) {"name": "张三", "age": 25, "is_student": false}
适用场景:
- 数据提取(从非结构化文本中抽取出结构化字段)
- 函数参数自动填充
- 表单生成、API 响应构造
- 与低代码平台或工作流引擎集成
注意事项:
- 并非所有模型都支持结构化输出(Gemini 3 Flash 通常支持,但需确认版本)。
- 过于复杂的 Schema 可能增加模型出错概率。
- 建议结合低 Temperature(如 0.1)使用,以提高格式遵循度。
Code execution(代码执行)
作用: 允许模型实际生成并运行 Python 代码,然后获取代码执行结果用于后续推理。
详细介绍: Code execution 是一种工具能力,让模型不再只是“输出代码”,而是真正执行它。
-
工作流程:
- 模型分析问题 → 决定需要编写代码。
- 模型生成 Python 代码(通常包含输入数据、计算逻辑)。
- 后端安全执行该代码(隔离环境)。
- 执行结果(stdout、stderr、返回值)返回给模型。
- 模型基于结果继续推理或直接输出答案。
-
典型能力:
- 数学计算(如微积分、线性代数)
- 数据分析(pandas、numpy 操作)
- 数据可视化(生成图表代码,但图片可能需单独处理)
- 文件处理(读取 CSV、JSON 等)
- 代码验证(测试自己的输出)
适用场景:
- 复杂数学问题(需要数值计算或符号求解)
- 数据清洗与统计分析
- 代码调试(让模型运行并修正自己的代码)
- 模拟、随机过程、蒙特卡洛方法
注意事项:
- 执行环境是受限且隔离的,无法访问本地文件系统、网络或敏感环境变量。
- 长时间运行或无限循环会被自动终止。
- 并非所有模型支持(Gemini 3 Flash 支持,但可能有速率限制)。
- 输出可能包含中间结果,需要模型进一步处理才能形成最终答案。
Function calling(函数调用)
作用: 允许模型请求调用你预先定义的外部函数或 API,并自动填入参数,然后由你的应用执行并将结果返回给模型。
详细介绍: Function calling(也称工具调用)是模型与外部世界交互的桥梁。
-
工作流程:
- 你定义一组函数(如
get_weather(city)、send_email(to, subject)),并提供函数名、描述、参数 Schema。 - 模型根据用户输入判断是否需要调用某个函数。
- 模型不直接执行函数,而是返回一个结构化的调用请求(函数名 + 参数值)。
- 你的应用负责执行该函数(调用真实 API、数据库等)。
- 你将执行结果返回给模型。
- 模型基于结果继续对话或生成最终答案。
- 你定义一组函数(如
-
典型示例:
用户:“北京今天天气怎么样?”
模型返回:call get_weather(city="Beijing")
你的应用执行真实天气 API → 得到{"temp": 22, "condition": "晴"}
模型最终回复:“北京今天晴天,气温 22°C。”
适用场景:
- 实时信息获取(天气、股票、新闻)
- 数据库查询(用户信息、订单状态)
- 业务操作(发送邮件、创建工单、下单)
- 与内部系统集成(CRM、ERP)
注意事项:
- 模型只负责“请求”调用,实际执行由你的代码完成。
- 函数描述要清晰、准确,否则模型可能填错参数。
- 建议对参数进行验证和清理,防止注入攻击。
- 可以同时提供多个函数,模型会选择合适的调用。
Grounding(知识锚定 / 溯源)
作用: 让模型引用外部可信数据源(如搜索引擎、地图服务)来回答用户问题,减少“幻觉”并提高事实准确性。
详细介绍: Grounding 是一种检索增强生成(RAG)的集成能力,使模型不依赖纯参数化知识,而是动态查询外部知识库。
Google Search(谷歌搜索)
- 作用:允许模型实时搜索网络以获取最新、最准确的信息。
- 特点:
- 自动处理搜索查询构造。
- 搜索结果会作为上下文提供给模型。
- 模型会引用搜索来源(如链接、标题),方便用户验证。
- 优势:
- 大幅减少事实性幻觉。
- 可以回答训练数据截止日期之后的问题(如“昨天发生了什么新闻?”)。
- 提高对长尾、专业、冷门知识的准确性。
- 适用场景:
- 实时新闻、股价、赛事比分
- 产品价格、最新研究进展
- 验证事实、查证引用
Google Maps(谷歌地图)
- 作用:允许模型访问地理位置数据和地图服务。
- 能力:
- 地点搜索(如“附近的咖啡店”)
- 路线规划(驾车、公交、步行时间)
- 距离计算、地点详情(营业时间、评分、地址)
- 适用场景:
- 旅行规划、导航建议
- 本地商家推荐
- 地理围栏、配送范围判断
注意事项:
- Grounding 会显著增加延迟(因为需要外部查询)。
- 搜索结果的权威性由外部来源决定,模型仍可能错误解读。
- 使用 Grounding 时,建议降低 Temperature(如 0.2)以保持事实一致性。
- 需要网络连接,且可能有查询配额限制(取决于 API Key 等级)。
URL context(URL 上下文)
作用: 允许模型直接读取你提供的网页链接内容,并将其作为对话上下文的一部分。
详细介绍: URL context 是一种便捷的内容获取方式,无需你手动复制粘贴网页全文。
-
工作原理:
- 用户在输入中提供一个或多个 URL(如
https://example.com/article)。 - 模型(或后端服务)会自动抓取该 URL 的内容(通常是 HTML 的主要文本部分)。
- 抓取到的内容被转换为纯文本或 Markdown,并注入到模型上下文中。
- 模型基于该内容回答用户问题。
- 用户在输入中提供一个或多个 URL(如
-
支持的资源类型:
- 新闻文章、博客帖子
- 技术文档、API 参考
- GitHub README、维基百科页面
- PDF 文件(部分模型支持)
-
典型用途:
- “总结这篇文章的内容:
[URL]” - “根据这个技术文档,告诉我如何配置某个参数。”
- “对比这两个网页中的观点:
[URL1]和[URL2]”
- “总结这篇文章的内容:
注意事项:
- 并非所有网页都能成功抓取(如需要登录、有反爬机制、动态渲染的 SPA 页面)。
- 模型可能会读取到大量不相关内容(如导航栏、广告),需要模型本身有能力过滤。
- 抓取的内容会消耗输入 token,长网页可能很快填满上下文窗口。
- 建议结合低 Temperature 使用,以忠实还原原文信息。
4. 高级设置(Advanced settings)
Safety settings(安全设置)
作用: 过滤模型输出的敏感内容,防止生成有害、不当或违反政策的信息。
详细介绍: Safety settings 是一组可配置的内容安全过滤器,用于控制模型在四个核心类别上的输出行为。
-
可过滤的敏感类别(通常包括):
- 仇恨言论:针对种族、宗教、性别等的攻击性内容。
- 骚扰:侮辱、威胁、霸凌等内容。
- 色情内容:露骨的性描写或色情材料。
- 暴力与血腥:详细描述暴力行为、伤害、死亡等内容。
- 危险内容:指导非法活动、自残、制造武器等。
-
阈值级别(不同平台名称可能略有差异):
级别 含义 适用场景 低 / 仅最严重 只拦截最极端的违规内容 创意写作、艺术表达(需谨慎) 中 / 中等 拦截明显的有害内容 通用对话、客服系统 高 / 严格 拦截大部分可疑内容 教育场景、儿童应用、企业合规 阻止全部 几乎不允许任何敏感词 高度受限的内部系统 -
工作原理:
- 模型生成候选输出。
- 安全分类器对输出进行评估(每个类别给出概率分数)。
- 如果任一类别超过设定阈值,该输出被阻止或替换(如返回默认安全响应)。
适用场景:
- 面向未成年人的应用
- 公开聊天机器人(避免法律风险)
- 企业内部的合规内容生成
- 社交媒体内容审核辅助
注意事项:
- 安全设置不是绝对完美的,可能出现误报(安全内容被拦截)或漏报(有害内容通过)。
- 过高的阈值可能导致模型拒绝回答许多正常问题(如“什么是性教育?”)。
- 建议从中等阈值开始,根据实际使用情况调整。
- 安全设置无法完全禁用,Google 有最低安全基线。
Add stop sequence(添加停止序列)
作用: 指定一个或多个字符串作为停止信号,一旦模型生成到该字符串,立即终止输出。
详细介绍: Stop sequences 是一种输出控制机制,用于精确限制模型在何处停止生成。
-
工作原理:
- 你定义一个或多个字符串(如
\n\n、END、---)。 - 模型逐 token 生成文本。
- 如果生成的文本中出现该字符串(且未被转义),生成过程立即停止。
- 停止序列本身不会被包含在最终输出中(不同平台行为可能略有差异)。
- 你定义一个或多个字符串(如
-
常见用法:
停止序列 效果 \n\n在第一个空行处停止(适合生成单个段落) END在模型输出 “END” 时停止 ###在 Markdown 分隔符处停止 Q:在多轮对话模板中停止,防止模型生成下一轮问题 \n答案:在特定结构输出中停止 -
典型示例:
系统指令:“列出三点建议,最后输出’END’”
停止序列:END
模型输出:“1. 多读书\n2. 多运动\n3. 多思考\nEND” → 在 END 处停止,输出为前三点。
适用场景:
- 控制回复长度(如限制为 3 个句子)
- 多轮对话模板(防止模型越界生成)
- 结构化输出(如 JSON 结束后停止)
- 避免模型重复或自我纠正
注意事项:
- 可以添加多个停止序列(通常最多 4-5 个)。
- 停止序列是精确字符串匹配,注意大小写和空格(
END≠End)。 - 特殊字符如换行符
\n、制表符\t需要使用转义写法(具体看平台文档)。 - 如果模型从不生成停止序列,输出会一直持续到
Output length上限。
Output length(输出长度)
作用: 限制模型生成回复的最大 token 数量(token 是文本的基本单位,包括单词、标点、空格)。
详细介绍: Output length 是一个硬性上限,用于控制模型单次回复的长度。
-
什么是 Token?
- 英文:1 token ≈ 0.75 个单词(例如 “Hello world” 约 2 token)。
- 中文:1 token ≈ 0.5–1 个汉字(取决于模型分词器)。
- 标点、空格、换行符也都计入 token。
-
配置建议:
输出长度 适用场景 100–200 简短问答、确认回复、单句翻译 500–1000 日常对话、段落摘要、产品描述 2000–4000 详细解释、技术文档、故事创作 8000+ 长篇文章、代码生成、复杂分析 65536 几乎不限制(模型最大上下文上限) -
当前设置
65536的含义:- 这是 Gemini 3 Flash 的输出 token 上限(也可能是上下文窗口上限)。
- 设置为该值意味着几乎不限制输出长度,模型可以一直生成直到自然停止或达到其他限制(如停止序列)。
- 适合需要极长输出的场景(如生成整本书、完整代码库)。
注意事项:
- 输出长度越长,延迟越高、成本越高(按 token 计费)。
- 模型可能不会真的用到全部长度,只是允许它这样做。
- 过长的输出可能包含重复、跑题或低质量内容。
- 建议根据实际需求设置合理长度,而不是一味拉到最大。
Top P(核采样)
作用: 动态选择模型下一个 token 的候选集合,控制输出的多样性。
详细介绍: Top P(也称 nucleus sampling)是一种采样策略,与 Temperature 类似但工作方式不同。
-
工作原理:
- 模型为下一个 token 计算出所有可能候选的概率分布。
- 将所有候选 token 按概率从高到低排序。
- 从高到低累加概率,直到累计概率达到 P 值(如 0.95)。
- 模型只从这组 token 中随机选择下一个,忽略概率更低的 token。
-
数值含义:
Top P 值 候选 token 数量 输出特性 0.1 极少(最可能的前几个) 非常确定、重复性高 0.5 中等 平衡确定性与多样性 0.95 很多(包含大部分合理选项) 多样性高、创意性强 1.0 所有 token 完全不受限制,可能极不相关 -
直观对比:
假设下一个 token 的概率分布为:
猫(0.4)、狗(0.3)、鸟(0.15)、鱼(0.1)、车(0.05)…- Top P = 0.5 → 累计概率 0.4+0.3=0.7 > 0.5,候选集 = {猫, 狗}
- Top P = 0.9 → 累计到 0.4+0.3+0.15+0.1=0.95 > 0.9,候选集 = {猫, 狗, 鸟, 鱼}
Temperature vs Top P:
| 维度 | Temperature | Top P |
|---|---|---|
| 调节方式 | 平滑/锐化概率分布 | 动态裁剪候选集大小 |
| 典型范围 | 0.0 – 2.0 | 0.0 – 1.0 |
| 高值效果 | 低概率词概率提升 | 候选集扩大 |
| 最佳实践 | 与 Top P 二选一 | 与 Temperature 二选一 |
推荐组合:
- 保守/事实性任务:Temperature = 0.1,Top P = 1.0(或保持默认)
- 中等多样性:Temperature = 0.7,Top P = 0.9
- 高创意任务:Temperature = 1.0,Top P = 0.95
- 通常建议:只调整其中一个,另一个设为 1.0 或默认值,避免相互干扰。
适用场景:
- Top P 较低(0.1–0.3):代码生成、数学证明、数据格式化
- Top P 中等(0.5–0.7):通用对话、翻译、摘要
- Top P 较高(0.9–0.99):创意写作、头脑风暴、诗歌
注意事项:
- Top P = 1.0 并不意味着“最随机”,而是“不裁剪”,所有 token 都可能被选中。
- Top P 与 Temperature 同时调节可能导致不可预测的结果,建议只用其一。
- 不同模型对 Top P 的响应可能略有差异,建议先小范围测试。
更多推荐



所有评论(0)