谷歌 Gemini 3.5 Flash 原生搭载计算机使用能力,AI 代理时代真正来了

六月底的这场技术发布,把人工智能代理的想象空间又往前推了一大步。Google 在 2026 年 6 月 24 日正式推出了 Gemini 3.5 Flash,这次最引人注目的变化不是参数规模的膨胀,而是它内置了原生的"计算机使用"(Computer Use)功能。换句话说,这个模型不再只是坐在对话框里回答问题,而是能够直接操作浏览器、移动端和桌面系统,像人类一样在数字环境里完成多步骤任务。
这项能力此前只在独立的 Gemini 2.5 系列上出现过,现在被直接嵌入到更轻量、更快速的 Flash 版本中。对开发者来说,这意味着部署门槛大幅降低,性能却并未缩水。企业想要构建自动化工具或优化内部工作流,不再需要复杂的中间件拼接,一套 API 就能让 AI 代理"上手"干活。

从"能看"到"能干",Gemini 3.5 Flash 的进化逻辑
这次升级的核心,是让 AI 系统具备"观察、推理、行动"的闭环能力。Gemini 3.5 Flash 可以浏览网页界面、执行软件测试、管理企业级应用,甚至处理那些需要持续交互和情境判断的长期任务。它继承了 Gemini 家族在函数调用、搜索整合和地图工具上的优势,又在此基础上叠加了与操作系统直接交互的能力。
在 OSWorld-Verified 基准测试中,Gemini 3.5 Flash 拿下了 78.4% 的分数。这个成绩放在当前主流模型里相当亮眼,说明它在理解屏幕内容、定位界面元素、执行正确操作这一系列链条上,已经具备了接近实用的可靠性。

企业场景下的落地想象
真正让人兴奋的,是这项技术在实际业务中的渗透速度。已经有早期采用者把它用在了持续软件测试上——AI 代理可以 24 小时不间断地模拟用户操作,自动发现界面 Bug 和交互断层。在企业知识工作流方面,它也能承担大量重复性的数据整理、表单填写和跨系统信息搬运工作。
Google 为此专门搭建了 Gemini Enterprise 代理平台,同时开放了 Gemini API 接口。开发者还能在 Browserbase 提供的托管环境里先做测试,降低试错成本。GitHub 上也放出了参考实现代码,社区生态的跟进速度比预期快得多。

安全问题不能只做"事后补丁"
能力越大,风险面也越大。当 AI 代理被赋予访问敏感系统或核心业务流程的权限时,一条恶意指令就可能引发连锁反应。Google 显然意识到了这一点,在 Gemini 3.5 Flash 里内置了几层安全机制。
最核心的是对抗训练,专门针对提示注入攻击做了优化。这种攻击手段通过外部内容向 AI 输入恶意指令,劫持其正常行为。除了模型层面的防御,Google 还加了两道企业级安全闸门:一是对敏感或不可逆操作强制要求用户确认,二是一旦检测到间接提示注入的苗头,系统会自动终止任务。
不过安全专家的态度依然谨慎。他们认为,与实时环境交互的自主代理天然会引入新的攻击路径,尤其是在配置不当、权限边界模糊的情况下。Google 建议采用纵深防御策略,把模型自带的安全层与沙盒环境、严格的访问控制、人机协同验证结合起来,而不是单靠某一项技术兜底。
更多推荐



所有评论(0)