低阶模型干不了重活？让 Agent 自己调用 Gemini Pro 的 Extended Thinking

m0_75125940

44人浏览 · 2026-07-05 19:29:29

m0_75125940 · 2026-07-05 19:29:29 发布

神器推荐：Gemini Web Automation —— 让任何 AI Agent 随时调用 Gemini 3.1 Pro 的深度思考能力

如果你在用 Claude Code 这类 AI Agent，大概率会遇到这个问题：你的 Agent 背后是 DeepSeek V4 Flash / 豆包 / GLM / Qwen / Kimi，速度快成本低，日常编码辅助够用。但一旦让它"写一个完整的技术方案"、"做架构设计"、"深度头脑风暴"，输出明显不够深。

不是这些模型不好，是它们的天花板就在那。今天介绍的 **Gemini Web Automation** 就是来弥补这个差距的。

它能解决什么痛点

**日常模型深度不够** — 遇到复杂任务（方案设计、技术选型、架构规划），低成本模型给不了那种真正的 deep thinking
**Agent 缺少"外挂"能力** — 你的 Agent 遇到硬骨头，除了硬撑没有更好的选择
**多模态缺失** — 很多模型没有视觉能力，看图、分析截图需要另外找工具
核心特性
**本质上是个 Python 运行时** — 通过浏览器自动化 Gemini，发送 Prompt、上传图片、切换模型、获取回复，全部结构化 JSON 返回，专为 AI Agent 集成设计
**Gemini 3.1 Pro Extended Thinking** — 遇到复杂任务时自动调用 Gemini 的最强模式，深度推理、多步规划、高质量输出
**多模态辅助** — 默认用 Gemini 3.5 Flash 为没有视觉能力的模型提供看图能力
**会话持久化** — 登录一次，后续重复使用浏览器 Profile，不用反复认证

快速上手

安装与初始化非常简单：

git clone https://github.com/lainXXX/gemini-web-automation-skill.git
cd gemini-web-automation-skill
cp .env.example .env
python scripts/bootstrap.py

bootstrap.py 会启动 Chrome 并打开 Gemini 登录页，手动登录后就可以开始使用了。基础使用示例：

# 发送消息
python scripts/chat.py "帮我写一个微服务架构方案"

# 附带图片让 Gemini 分析
python scripts/chat.py "这张架构图有什么问题？" -a diagram.png

优缺点客观分析

**优点：**

工作流清晰：日常用便宜模型，硬骨头交给 Gemini，互补不冲突
无 API 费用：通过浏览器网页版使用，不需要 Gemini API Key，有 Google 账号即可
集成简单：结构化 JSON 返回，任何一个 Agent 都能对接
零配置运维：Chrome 自动管理，登录会话持久化
**局限性：**
依赖浏览器：需要 Chrome/Chromium 环境，纯 API 调用比浏览器自动化更轻量
响应速度受限于网页版：extended thinking 模式下首响应可能需要 15-60 秒
需要 Google 账号和网络环境：国内用户需要配置代理
拓展阅读

GitHub 地址：[https://github.com/lainXXX/gemini-web-automation-skill](https://github.com/lainXXX/gemini-web-automation-skill)

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

阿里卸载 Claude 背后：下一轮比拼，不是谁更会写代码，而是谁更可控

AI编程社区

作为开发者，我为什么越来越在意 GPT Pro 和 Codex 的稳定充值？

AI 已经深度融入开发流程，稳定性就是生产力，频繁翻车的低价渠道，才是最贵的选择。适配2026最新订阅规则、选择合规稳定的开通方式，才能真正让 AI 为项目提效，而不是成为开发路上的阻碍。

AI编程社区

Cursor + GitOps：自动化运维新姿势

降低认知负荷：用自然语言描述运维意图，由AI生成精准的配置代码。提升代码质量：AI辅助编写更健壮、更符合最佳实践的K8s YAML、Terraform等IaC代码。加速反馈循环：本地编写、AI审查、Git提交、CI/CD验证的快速迭代。赋能团队协作：AI作为“结对编程”伙伴，统一团队对GitOps实践的理解与实施标准。Cursor与GitOps的结合，并非简单的能力叠加，而是创造了一种“意图驱动”