这是 Google AI Studio(或类似 Gemini API 调用界面)中的模型运行配置面板。

1. 模型配置

Gemini 3 Flash Preview

作用: 选择当前对话或任务所使用的底层模型。
详细介绍: Gemini 3 Flash Preview 是 Google 推出的 Gemini 3 系列中的轻量级模型,主要特点如下:

  • 低延迟:响应速度快,适合实时交互场景(如聊天、语音助手)。
  • 高吞吐量:单位时间内可处理大量请求,适合批量任务。
  • 成本较低:相比更强大的 Gemini Pro 或 Ultra 系列,推理成本更低。
  • “Preview” 含义:表示该模型当前为预览版,功能和行为可能仍在调整中,不建议直接用于生产环境的关键任务。

适用场景:

  • 实时对话系统
  • 内容过滤、摘要生成
  • 简单代码补全
  • 教育、翻译、客服等对速度要求较高的任务

注意事项:

  • 预览版可能不支持所有功能(如长上下文、函数调用等)。
  • 若需要更高质量或更复杂推理,建议切换为 Gemini 3 Pro 或其他更高版本。

System instructions(系统指令)

作用: 为模型设定行为准则、角色身份或回复格式,优先级高于普通用户输入。
详细介绍: 系统指令是一种顶级提示(meta-prompt),用于在整个对话过程中控制模型的风格、目标和输出规范。例如:

  • 角色设定: “你是一位幽默的翻译官,擅长用轻松的方式翻译技术文档。”
  • 行为约束: “不要回答任何与医疗相关的问题。”
  • 格式要求: “每次回答必须以‘总结:’开头,并使用 Markdown 列表。”

优先级说明: 系统指令的优先级 高于用户输入。即使用户要求模型违反系统指令,模型也会优先遵循系统指令(受安全机制约束)。

最佳实践:

  • 清晰、简洁、具体
  • 避免与用户指令矛盾
  • 可以组合多个要求(角色 + 格式 + 限制)

示例:

你是一位严谨的代码审查助手。  
你只回答与 Python 代码相关的问题。  
每次回答必须先指出潜在问题,再给出优化建议。

No API Key

作用: 表示当前未配置有效的 API 密钥,处于免费匿名使用模式
详细介绍: No API Key 不是一个可调节的参数,而是一个状态指示器,含义如下:

状态 含义 使用限制
No API Key 未绑定任何 API 密钥 仅限 Google AI Studio 在线使用,受严格的速率和次数限制
API Key: xxx 已绑定有效 API 密钥 可编程调用,支持更高配额、生产环境使用

无 API Key 时的限制:

  • 无法通过代码(Python、JavaScript 等)调用模型
  • 每分钟请求数、每天 Token 数有明确上限(通常较低)
  • 可能无法使用某些高级工具(如函数调用、代码执行)
  • 数据可能用于模型改进(具体见 Google 隐私条款)

何时需要添加 API Key:

  • 将模型集成到自己的应用或服务中
  • 需要更高的请求频率或更大的 Token 额度
  • 希望获得稳定的生产级性能
  • 需要记录调用日志或进行成本分析

如何添加 API Key:

  1. 访问 Google AI StudioGoogle Cloud Console
  2. 创建或获取 Gemini API Key
  3. 在当前界面中点击 No API Key,粘贴并保存
  4. 状态会更新为 API Key: your_key_here

费用说明:

  • Gemini 3 Flash 本身成本较低
  • Google 通常提供免费试用额度(如 $5–$10)
  • 超出免费额度后按 Token 用量计费,可在 Cloud Console 设置预算告警

安全建议:

  • 不要将 API Key 提交到公开代码仓库
  • 定期轮换密钥
  • 在 Cloud Console 中设置用量上限,防止意外超额

2. 基础配置

Temperature(温度)

作用: 控制模型回复的随机性、创造性与确定性之间的平衡
详细介绍: Temperature 是一个 0.0 到 2.0 之间的浮点数(不同模型可能范围略有差异),用于调整模型输出 token 的概率分布。

  • 低温度(0.0 – 0.3)
    模型倾向于选择概率最高的 token,回答确定、保守、事实性强,几乎每次对相同输入都会给出相同或高度相似的回复。
    ✅ 适用场景:事实问答、代码生成、数学计算、数据提取。

  • 中等温度(0.4 – 0.8)
    输出既保持一定的事实性,又具备适度的多样性。
    ✅ 适用场景:日常对话、内容改写、文本摘要。

  • 高温度(0.9 – 2.0)
    模型更倾向于选择低概率的 token,回答多样、有创意、富有变化,但可能产生不准确或“幻觉”内容。
    ✅ 适用场景:创意写作、头脑风暴、角色扮演、诗歌生成。

示例对比:

输入:“天空是什么颜色的?”

  • Temperature = 0.1 → “天空通常是蓝色的。”
  • Temperature = 1.5 → “天空可以是湛蓝的、绯红的、甚至紫罗兰色的,取决于时间和心情。”

注意事项:

  • 温度越高,输出越不可预测,越容易偏离事实。
  • 通常与 Top P 配合使用,但建议只调整其中一项,另一项保持默认。

Media resolution(媒体分辨率)

作用: 当上传图片、视频或其他媒体文件时,决定模型对媒体内容的解析精度
详细介绍: Media resolution 控制模型在视觉编码阶段对媒体文件的采样粒度。

  • 低分辨率
    快速处理,消耗 token 少,但可能丢失细节(如小字体、远处物体)。
    ✅ 适用场景:快速识图、简单的物体检测、低延迟需求。

  • 高分辨率
    保留更多视觉细节(如文字、纹理、微小物体),识别准确率更高,但会显著增加 token 消耗和计算时间
    ✅ 适用场景:文档图像中的文字识别、医学影像分析、质量检测。

实际影响:

分辨率 Token 消耗 处理时间 细节保留
中等 中等 中等
多(可能翻倍)

注意事项:

  • 并非所有模型都支持此选项(Gemini 系列通常支持)。
  • 高分辨率不保证 100% 准确,只是提供更多信息给模型。
  • 如果你的任务依赖图片中的小文字或细微特征,请选择高分辨率。

Thinking level(思考级别)

作用: 决定模型在生成最终答案之前,进行内部推理链的深度与复杂度
详细介绍: Thinking level 控制模型是否启用以及投入多少计算资源用于“内部思考”(类似 Chain-of-Thought 但由模型自动完成)。

  • Low / Off / None:模型直接生成答案,不进行额外的内部推理。

    • 优点:响应极快,适合简单任务。
    • 缺点:在逻辑、数学、多步推理任务上表现较差。
    • ✅ 适用场景:常识问答、简单翻译、闲聊、内容分类。
  • Medium(若有):模型进行适度的内部推理,平衡速度与准确性。

    • ✅ 适用场景:中等复杂的任务,如段落总结、简单代码修复。
  • High:模型会进行多步内部推理、自我验证、路径回溯等。

    • 优点:显著提升复杂问题的正确率(如数学证明、逻辑谜题、多跳问答)。
    • 缺点:响应时间明显增加(可能数秒甚至更久),消耗更多 token。
    • ✅ 适用场景:数学题求解、复杂代码调试、科学推理、战略规划。

实际对比示例:

问题:“一个农场里有鸡和兔子共 35 个头和 94 只脚,问鸡和兔子各有多少只?”

  • Thinking level = Low → 可能直接猜错或跳过步骤。
  • Thinking level = High → 内部列出方程并求解,最终给出正确答案(鸡 23 只,兔子 12 只)。

注意事项:

  • 高思考级别会增加延迟和成本,仅推荐在需要多步推理时启用
  • 对于简单任务,高思考级别可能产生“过度思考”,反而引入不必要的解释。
  • 具体级别名称可能因模型版本而异(如 None / Basic / Advanced)。

3. 工具配置(Tools)

Structured outputs(结构化输出)

作用: 强制模型按照预定义的 JSON Schema 或其他结构化格式返回数据,而不是自由文本。
详细介绍: Structured outputs 是一项让模型输出可解析、可验证、类型安全的数据的能力。

  • 工作原理: 你提供一个 JSON Schema(如对象、数组、枚举等定义),模型会确保其输出严格符合该结构,而非偶尔格式正确的自由文本。

  • 主要优势

    • 可靠性:减少手动解析文本的麻烦和错误。
    • 类型安全:可直接映射到编程语言中的类/结构体(如 TypeScript interface、Pydantic model)。
    • 便于集成:输出可以直接用于 API 调用、数据库存储或前端渲染。
  • 典型示例

    // 你提供的 Schema
    {
      "name": "person_info",
      "schema": {
        "type": "object",
        "properties": {
          "name": {"type": "string"},
          "age": {"type": "integer"},
          "is_student": {"type": "boolean"}
        },
        "required": ["name", "age"]
      }
    }
    
    // 模型输出(严格匹配)
    {"name": "张三", "age": 25, "is_student": false}
    

适用场景:

  • 数据提取(从非结构化文本中抽取出结构化字段)
  • 函数参数自动填充
  • 表单生成、API 响应构造
  • 与低代码平台或工作流引擎集成

注意事项:

  • 并非所有模型都支持结构化输出(Gemini 3 Flash 通常支持,但需确认版本)。
  • 过于复杂的 Schema 可能增加模型出错概率。
  • 建议结合低 Temperature(如 0.1)使用,以提高格式遵循度。

Code execution(代码执行)

作用: 允许模型实际生成并运行 Python 代码,然后获取代码执行结果用于后续推理。

详细介绍: Code execution 是一种工具能力,让模型不再只是“输出代码”,而是真正执行它

  • 工作流程

    1. 模型分析问题 → 决定需要编写代码。
    2. 模型生成 Python 代码(通常包含输入数据、计算逻辑)。
    3. 后端安全执行该代码(隔离环境)。
    4. 执行结果(stdout、stderr、返回值)返回给模型。
    5. 模型基于结果继续推理或直接输出答案。
  • 典型能力

    • 数学计算(如微积分、线性代数)
    • 数据分析(pandas、numpy 操作)
    • 数据可视化(生成图表代码,但图片可能需单独处理)
    • 文件处理(读取 CSV、JSON 等)
    • 代码验证(测试自己的输出)

适用场景:

  • 复杂数学问题(需要数值计算或符号求解)
  • 数据清洗与统计分析
  • 代码调试(让模型运行并修正自己的代码)
  • 模拟、随机过程、蒙特卡洛方法

注意事项:

  • 执行环境是受限且隔离的,无法访问本地文件系统、网络或敏感环境变量。
  • 长时间运行或无限循环会被自动终止。
  • 并非所有模型支持(Gemini 3 Flash 支持,但可能有速率限制)。
  • 输出可能包含中间结果,需要模型进一步处理才能形成最终答案。

Function calling(函数调用)

作用: 允许模型请求调用你预先定义的外部函数或 API,并自动填入参数,然后由你的应用执行并将结果返回给模型。
详细介绍: Function calling(也称工具调用)是模型与外部世界交互的桥梁。

  • 工作流程

    1. 你定义一组函数(如 get_weather(city)send_email(to, subject)),并提供函数名、描述、参数 Schema。
    2. 模型根据用户输入判断是否需要调用某个函数。
    3. 模型不直接执行函数,而是返回一个结构化的调用请求(函数名 + 参数值)。
    4. 你的应用负责执行该函数(调用真实 API、数据库等)。
    5. 你将执行结果返回给模型。
    6. 模型基于结果继续对话或生成最终答案。
  • 典型示例

    用户:“北京今天天气怎么样?”
    模型返回:call get_weather(city="Beijing")
    你的应用执行真实天气 API → 得到 {"temp": 22, "condition": "晴"}
    模型最终回复:“北京今天晴天,气温 22°C。”

适用场景:

  • 实时信息获取(天气、股票、新闻)
  • 数据库查询(用户信息、订单状态)
  • 业务操作(发送邮件、创建工单、下单)
  • 与内部系统集成(CRM、ERP)

注意事项:

  • 模型只负责“请求”调用,实际执行由你的代码完成
  • 函数描述要清晰、准确,否则模型可能填错参数。
  • 建议对参数进行验证和清理,防止注入攻击。
  • 可以同时提供多个函数,模型会选择合适的调用。

Grounding(知识锚定 / 溯源)

作用: 让模型引用外部可信数据源(如搜索引擎、地图服务)来回答用户问题,减少“幻觉”并提高事实准确性。
详细介绍: Grounding 是一种检索增强生成(RAG)的集成能力,使模型不依赖纯参数化知识,而是动态查询外部知识库。

Google Search(谷歌搜索)

  • 作用:允许模型实时搜索网络以获取最新、最准确的信息。
  • 特点
    • 自动处理搜索查询构造。
    • 搜索结果会作为上下文提供给模型。
    • 模型会引用搜索来源(如链接、标题),方便用户验证。
  • 优势
    • 大幅减少事实性幻觉。
    • 可以回答训练数据截止日期之后的问题(如“昨天发生了什么新闻?”)。
    • 提高对长尾、专业、冷门知识的准确性。
  • 适用场景
    • 实时新闻、股价、赛事比分
    • 产品价格、最新研究进展
    • 验证事实、查证引用

Google Maps(谷歌地图)

  • 作用:允许模型访问地理位置数据和地图服务
  • 能力
    • 地点搜索(如“附近的咖啡店”)
    • 路线规划(驾车、公交、步行时间)
    • 距离计算、地点详情(营业时间、评分、地址)
  • 适用场景
    • 旅行规划、导航建议
    • 本地商家推荐
    • 地理围栏、配送范围判断

注意事项:

  • Grounding 会显著增加延迟(因为需要外部查询)。
  • 搜索结果的权威性由外部来源决定,模型仍可能错误解读。
  • 使用 Grounding 时,建议降低 Temperature(如 0.2)以保持事实一致性。
  • 需要网络连接,且可能有查询配额限制(取决于 API Key 等级)。

URL context(URL 上下文)

作用: 允许模型直接读取你提供的网页链接内容,并将其作为对话上下文的一部分。
详细介绍: URL context 是一种便捷的内容获取方式,无需你手动复制粘贴网页全文。

  • 工作原理

    1. 用户在输入中提供一个或多个 URL(如 https://example.com/article)。
    2. 模型(或后端服务)会自动抓取该 URL 的内容(通常是 HTML 的主要文本部分)。
    3. 抓取到的内容被转换为纯文本或 Markdown,并注入到模型上下文中。
    4. 模型基于该内容回答用户问题。
  • 支持的资源类型

    • 新闻文章、博客帖子
    • 技术文档、API 参考
    • GitHub README、维基百科页面
    • PDF 文件(部分模型支持)
  • 典型用途

    • “总结这篇文章的内容:[URL]
    • “根据这个技术文档,告诉我如何配置某个参数。”
    • “对比这两个网页中的观点:[URL1][URL2]

注意事项:

  • 并非所有网页都能成功抓取(如需要登录、有反爬机制、动态渲染的 SPA 页面)。
  • 模型可能会读取到大量不相关内容(如导航栏、广告),需要模型本身有能力过滤。
  • 抓取的内容会消耗输入 token,长网页可能很快填满上下文窗口。
  • 建议结合低 Temperature 使用,以忠实还原原文信息。

4. 高级设置(Advanced settings)

Safety settings(安全设置)

作用: 过滤模型输出的敏感内容,防止生成有害、不当或违反政策的信息。
详细介绍: Safety settings 是一组可配置的内容安全过滤器,用于控制模型在四个核心类别上的输出行为。

  • 可过滤的敏感类别(通常包括):

    • 仇恨言论:针对种族、宗教、性别等的攻击性内容。
    • 骚扰:侮辱、威胁、霸凌等内容。
    • 色情内容:露骨的性描写或色情材料。
    • 暴力与血腥:详细描述暴力行为、伤害、死亡等内容。
    • 危险内容:指导非法活动、自残、制造武器等。
  • 阈值级别(不同平台名称可能略有差异):

    级别 含义 适用场景
    低 / 仅最严重 只拦截最极端的违规内容 创意写作、艺术表达(需谨慎)
    中 / 中等 拦截明显的有害内容 通用对话、客服系统
    高 / 严格 拦截大部分可疑内容 教育场景、儿童应用、企业合规
    阻止全部 几乎不允许任何敏感词 高度受限的内部系统
  • 工作原理

    1. 模型生成候选输出。
    2. 安全分类器对输出进行评估(每个类别给出概率分数)。
    3. 如果任一类别超过设定阈值,该输出被阻止替换(如返回默认安全响应)。

适用场景:

  • 面向未成年人的应用
  • 公开聊天机器人(避免法律风险)
  • 企业内部的合规内容生成
  • 社交媒体内容审核辅助

注意事项:

  • 安全设置不是绝对完美的,可能出现误报(安全内容被拦截)或漏报(有害内容通过)。
  • 过高的阈值可能导致模型拒绝回答许多正常问题(如“什么是性教育?”)。
  • 建议从中等阈值开始,根据实际使用情况调整。
  • 安全设置无法完全禁用,Google 有最低安全基线。

Add stop sequence(添加停止序列)

作用: 指定一个或多个字符串作为停止信号,一旦模型生成到该字符串,立即终止输出。
详细介绍: Stop sequences 是一种输出控制机制,用于精确限制模型在何处停止生成。

  • 工作原理

    1. 你定义一个或多个字符串(如 \n\nEND---)。
    2. 模型逐 token 生成文本。
    3. 如果生成的文本中出现该字符串(且未被转义),生成过程立即停止。
    4. 停止序列本身不会被包含在最终输出中(不同平台行为可能略有差异)。
  • 常见用法

    停止序列 效果
    \n\n 在第一个空行处停止(适合生成单个段落)
    END 在模型输出 “END” 时停止
    ### 在 Markdown 分隔符处停止
    Q: 在多轮对话模板中停止,防止模型生成下一轮问题
    \n答案: 在特定结构输出中停止
  • 典型示例

    系统指令:“列出三点建议,最后输出’END’”
    停止序列:END
    模型输出:“1. 多读书\n2. 多运动\n3. 多思考\nEND” → 在 END 处停止,输出为前三点。

适用场景:

  • 控制回复长度(如限制为 3 个句子)
  • 多轮对话模板(防止模型越界生成)
  • 结构化输出(如 JSON 结束后停止)
  • 避免模型重复或自我纠正

注意事项:

  • 可以添加多个停止序列(通常最多 4-5 个)。
  • 停止序列是精确字符串匹配,注意大小写和空格(ENDEnd)。
  • 特殊字符如换行符 \n、制表符 \t 需要使用转义写法(具体看平台文档)。
  • 如果模型从不生成停止序列,输出会一直持续到 Output length 上限。

Output length(输出长度)

作用: 限制模型生成回复的最大 token 数量(token 是文本的基本单位,包括单词、标点、空格)。
详细介绍: Output length 是一个硬性上限,用于控制模型单次回复的长度。

  • 什么是 Token?

    • 英文:1 token ≈ 0.75 个单词(例如 “Hello world” 约 2 token)。
    • 中文:1 token ≈ 0.5–1 个汉字(取决于模型分词器)。
    • 标点、空格、换行符也都计入 token。
  • 配置建议

    输出长度 适用场景
    100–200 简短问答、确认回复、单句翻译
    500–1000 日常对话、段落摘要、产品描述
    2000–4000 详细解释、技术文档、故事创作
    8000+ 长篇文章、代码生成、复杂分析
    65536 几乎不限制(模型最大上下文上限)
  • 当前设置 65536 的含义

    • 这是 Gemini 3 Flash 的输出 token 上限(也可能是上下文窗口上限)。
    • 设置为该值意味着几乎不限制输出长度,模型可以一直生成直到自然停止或达到其他限制(如停止序列)。
    • 适合需要极长输出的场景(如生成整本书、完整代码库)。

注意事项:

  • 输出长度越长,延迟越高、成本越高(按 token 计费)。
  • 模型可能不会真的用到全部长度,只是允许它这样做。
  • 过长的输出可能包含重复、跑题或低质量内容。
  • 建议根据实际需求设置合理长度,而不是一味拉到最大。

Top P(核采样)

作用: 动态选择模型下一个 token 的候选集合,控制输出的多样性
详细介绍: Top P(也称 nucleus sampling)是一种采样策略,与 Temperature 类似但工作方式不同。

  • 工作原理

    1. 模型为下一个 token 计算出所有可能候选的概率分布。
    2. 将所有候选 token 按概率从高到低排序。
    3. 从高到低累加概率,直到累计概率达到 P 值(如 0.95)。
    4. 模型只从这组 token 中随机选择下一个,忽略概率更低的 token。
  • 数值含义

    Top P 值 候选 token 数量 输出特性
    0.1 极少(最可能的前几个) 非常确定、重复性高
    0.5 中等 平衡确定性与多样性
    0.95 很多(包含大部分合理选项) 多样性高、创意性强
    1.0 所有 token 完全不受限制,可能极不相关
  • 直观对比

    假设下一个 token 的概率分布为:猫(0.4)狗(0.3)鸟(0.15)鱼(0.1)车(0.05)

    • Top P = 0.5 → 累计概率 0.4+0.3=0.7 > 0.5,候选集 = {猫, 狗}
    • Top P = 0.9 → 累计到 0.4+0.3+0.15+0.1=0.95 > 0.9,候选集 = {猫, 狗, 鸟, 鱼}

Temperature vs Top P:

维度 Temperature Top P
调节方式 平滑/锐化概率分布 动态裁剪候选集大小
典型范围 0.0 – 2.0 0.0 – 1.0
高值效果 低概率词概率提升 候选集扩大
最佳实践 与 Top P 二选一 与 Temperature 二选一

推荐组合:

  • 保守/事实性任务:Temperature = 0.1,Top P = 1.0(或保持默认)
  • 中等多样性:Temperature = 0.7,Top P = 0.9
  • 高创意任务Temperature = 1.0,Top P = 0.95
  • 通常建议只调整其中一个,另一个设为 1.0 或默认值,避免相互干扰。

适用场景:

  • Top P 较低(0.1–0.3):代码生成、数学证明、数据格式化
  • Top P 中等(0.5–0.7):通用对话、翻译、摘要
  • Top P 较高(0.9–0.99):创意写作、头脑风暴、诗歌

注意事项:

  • Top P = 1.0 并不意味着“最随机”,而是“不裁剪”,所有 token 都可能被选中。
  • Top P 与 Temperature 同时调节可能导致不可预测的结果,建议只用其一。
  • 不同模型对 Top P 的响应可能略有差异,建议先小范围测试。
Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐