神器推荐:Gemini Web Automation —— 让任何 AI Agent 随时调用 Gemini 3.1 Pro 的深度思考能力

如果你在用 Claude Code 这类 AI Agent,大概率会遇到这个问题:你的 Agent 背后是 DeepSeek V4 Flash / 豆包 / GLM / Qwen / Kimi,速度快成本低,日常编码辅助够用。但一旦让它"写一个完整的技术方案"、"做架构设计"、"深度头脑风暴",输出明显不够深。

不是这些模型不好,是它们的天花板就在那。今天介绍的 **Gemini Web Automation** 就是来弥补这个差距的。

它能解决什么痛点
  • **日常模型深度不够** — 遇到复杂任务(方案设计、技术选型、架构规划),低成本模型给不了那种真正的 deep thinking
  • **Agent 缺少"外挂"能力** — 你的 Agent 遇到硬骨头,除了硬撑没有更好的选择
  • **多模态缺失** — 很多模型没有视觉能力,看图、分析截图需要另外找工具
  • 核心特性
  • **本质上是个 Python 运行时** — 通过浏览器自动化 Gemini,发送 Prompt、上传图片、切换模型、获取回复,全部结构化 JSON 返回,专为 AI Agent 集成设计
  • **Gemini 3.1 Pro Extended Thinking** — 遇到复杂任务时自动调用 Gemini 的最强模式,深度推理、多步规划、高质量输出
  • **多模态辅助** — 默认用 Gemini 3.5 Flash 为没有视觉能力的模型提供看图能力
  • **会话持久化** — 登录一次,后续重复使用浏览器 Profile,不用反复认证
  • 快速上手

    安装与初始化非常简单:

    git clone https://github.com/lainXXX/gemini-web-automation-skill.git
    cd gemini-web-automation-skill
    cp .env.example .env
    python scripts/bootstrap.py

    bootstrap.py 会启动 Chrome 并打开 Gemini 登录页,手动登录后就可以开始使用了。基础使用示例:

    # 发送消息
    python scripts/chat.py "帮我写一个微服务架构方案"
    
    # 附带图片让 Gemini 分析
    python scripts/chat.py "这张架构图有什么问题?" -a diagram.png
    优缺点客观分析

    **优点:**

  • 工作流清晰:日常用便宜模型,硬骨头交给 Gemini,互补不冲突
  • 无 API 费用:通过浏览器网页版使用,不需要 Gemini API Key,有 Google 账号即可
  • 集成简单:结构化 JSON 返回,任何一个 Agent 都能对接
  • 零配置运维:Chrome 自动管理,登录会话持久化
  • **局限性:**

  • 依赖浏览器:需要 Chrome/Chromium 环境,纯 API 调用比浏览器自动化更轻量
  • 响应速度受限于网页版:extended thinking 模式下首响应可能需要 15-60 秒
  • 需要 Google 账号和网络环境:国内用户需要配置代理
  • 拓展阅读

    GitHub 地址:[https://github.com/lainXXX/gemini-web-automation-skill](https://github.com/lainXXX/gemini-web-automation-skill)

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐