低阶模型干不了重活?让 Agent 自己调用 Gemini Pro 的 Extended Thinking
·
神器推荐:Gemini Web Automation —— 让任何 AI Agent 随时调用 Gemini 3.1 Pro 的深度思考能力
如果你在用 Claude Code 这类 AI Agent,大概率会遇到这个问题:你的 Agent 背后是 DeepSeek V4 Flash / 豆包 / GLM / Qwen / Kimi,速度快成本低,日常编码辅助够用。但一旦让它"写一个完整的技术方案"、"做架构设计"、"深度头脑风暴",输出明显不够深。
不是这些模型不好,是它们的天花板就在那。今天介绍的 **Gemini Web Automation** 就是来弥补这个差距的。
它能解决什么痛点
- **日常模型深度不够** — 遇到复杂任务(方案设计、技术选型、架构规划),低成本模型给不了那种真正的 deep thinking
- **Agent 缺少"外挂"能力** — 你的 Agent 遇到硬骨头,除了硬撑没有更好的选择
- **多模态缺失** — 很多模型没有视觉能力,看图、分析截图需要另外找工具
-
核心特性
- **本质上是个 Python 运行时** — 通过浏览器自动化 Gemini,发送 Prompt、上传图片、切换模型、获取回复,全部结构化 JSON 返回,专为 AI Agent 集成设计
- **Gemini 3.1 Pro Extended Thinking** — 遇到复杂任务时自动调用 Gemini 的最强模式,深度推理、多步规划、高质量输出
- **多模态辅助** — 默认用 Gemini 3.5 Flash 为没有视觉能力的模型提供看图能力
- **会话持久化** — 登录一次,后续重复使用浏览器 Profile,不用反复认证
-
快速上手
安装与初始化非常简单:
git clone https://github.com/lainXXX/gemini-web-automation-skill.git cd gemini-web-automation-skill cp .env.example .env python scripts/bootstrap.pybootstrap.py会启动 Chrome 并打开 Gemini 登录页,手动登录后就可以开始使用了。基础使用示例:# 发送消息 python scripts/chat.py "帮我写一个微服务架构方案" # 附带图片让 Gemini 分析 python scripts/chat.py "这张架构图有什么问题?" -a diagram.png优缺点客观分析
**优点:**
- 工作流清晰:日常用便宜模型,硬骨头交给 Gemini,互补不冲突
- 无 API 费用:通过浏览器网页版使用,不需要 Gemini API Key,有 Google 账号即可
- 集成简单:结构化 JSON 返回,任何一个 Agent 都能对接
- 零配置运维:Chrome 自动管理,登录会话持久化
-
**局限性:**
- 依赖浏览器:需要 Chrome/Chromium 环境,纯 API 调用比浏览器自动化更轻量
- 响应速度受限于网页版:extended thinking 模式下首响应可能需要 15-60 秒
- 需要 Google 账号和网络环境:国内用户需要配置代理
-
拓展阅读
GitHub 地址:[https://github.com/lainXXX/gemini-web-automation-skill](https://github.com/lainXXX/gemini-web-automation-skill)
更多推荐


所有评论(0)