某中心为所有Windows 11 PC推出“Hey Copilot”语音助手和自主代理

某中心正在从根本上重新构想人们与计算机的交互方式,于周四宣布对Windows 11进行一项全面转型,为所有运行该操作系统的PC——不仅仅是配备专用芯片的高端设备——带来语音激活的AI助手、自主软件代理和上下文感知智能。

此公告代表了某中心迄今为止将生成式人工智能整合到桌面计算体验中最积极的举措。它超越了定义第一波消费级AI产品的聊天机器人界面,转向一种更具环境感知性、对话式的模型,用户只需与计算机对话,AI代理就能代表他们完成复杂任务。

“当我们思考AI PC的承诺时,它应该具备三方面的能力,”某中心消费者首席营销官执行副总裁Yusuf Mehdi在上周的新闻发布会上告诉记者。“首先,你应该能够以自然的方式与之交互,无论是文本还是语音,并让它理解你。第二,它应该能够看到你所看到的,并提供引导式支持。第三,它应该能够代表你采取行动。”

这一转变可能对该行业寻找生成式AI的“杀手级应用”产生重大影响。虽然已有数亿人尝试过ChatGPT和类似的聊天机器人,但将AI直接集成到为绝大多数工作场所计算机提供动力的操作系统中,可能会极大地加速主流应用——或者为已经在努力管理员工使用AI工具的组织带来新的安全和隐私问题。

“Hey Copilot”如何旨在取代Windows PC上的打字

某中心愿景的核心是语音交互,该公司将其定位为继鼠标和键盘之后PC的第三种基本输入方法——这一对比突显了某中心在图形用户界面成为标准近四十年后,重塑人机交互的雄心。

从本周开始,任何Windows 11用户只需点击一下即可启用“Hey Copilot”唤醒词,允许他们通过语音从操作系统的任何位置召唤某中心的AI助手。该功能此前一直在有限范围内测试,现正面向全球数亿台设备推出。

“自从PC改变你的交互方式以来,已经过去了将近四十年,这主要是指鼠标和键盘,”Mehdi说。“仔细想想,我们发现人们每天在键盘上输入的单词多达14,000个,这真是有点令人难以置信。但如果现在你可以超越这一点,直接和它对话呢?”

对语音的重视反映了某中心的内部数据,数据显示用户在使用语音时与Copilot的互动频率是文本输入的两倍——该公司将此归因于说话比构思精确书面提示的认知障碍更低。

“Copilot语音和Copilot Vision的神奇解锁在于交互的便利性,”根据该机构的公告。“使用新的唤醒词‘Hey Copilot’,完成任务就像直接提出要求一样简单。”

但某中心对语音计算的押注面临着现实世界的限制,Mehdi在简报会上也承认了这一点。当被问及共享办公环境中的员工是否会使用语音功能,可能危及隐私时,Mehdi指出,已经有数百万人通过PC和耳机进行语音通话,并预测用户会适应:“就像鼠标刚问世时一样,人们必须弄清楚何时使用它,正确的方式是什么,如何让它实现。”

关键是,某中心通过对冲其语音优先策略,使所有功能也能通过传统的文本输入方式访问,认识到语音并非总是合适或可行的。

AI能看到你的屏幕:Copilot Vision在全球扩展并新增功能

或许比语音控制更具变革性的是Copilot Vision的扩展。这是某中心今年早些时候推出的一项功能,允许AI分析用户屏幕上的内容并提供上下文帮助。

此前仅限于语音交互的Copilot Vision现在正与一个新的基于文本的界面一起向全球推出,允许用户键入关于他们正在查看内容的提问,而无需大声说出来。该功能现在可以访问某中心Office应用程序中的完整文档上下文——这意味着它可以分析整个PowerPoint演示文稿或Excel电子表格,而无需用户滚动浏览每一页。

“68%的消费者报告使用AI来支持他们的决策,语音让这变得更加容易,”某中心在公告中解释道。“Copilot语音和Copilot Vision的神奇解锁在于交互的便利性。”

在新闻简报会上,某中心演示了Copilot Vision如何帮助用户导航某音乐服务的设置以启用无损音频流,指导艺术家根据其视觉作品集撰写专业简介,以及根据某视频平台上可见产品提供购物推荐。

“当你能提供丰富的上下文,当你能输入出色的提示时,AI才能真正活起来,”Mehdi解释道。“对大多数人来说,最大的挑战是我们被搜索引擎训练得恰恰相反。我们被训练为基本输入更少的关键词,因为事实证明,在搜索中键入的关键词越少,你得到的答案就越好。”

他指出,平均搜索查询仍然只有2.3个关键词,而AI系统在详细的提示下表现更好——这造成了用户习惯与AI能力之间的脱节。Copilot Vision旨在通过自动收集视觉上下文来弥合这一差距。

“有了Copilot Vision,你只需分享你的屏幕,Copilot就能在几毫秒内理解屏幕上的所有内容,然后提供智能分析,”Mehdi说。

视觉功能适用于任何应用程序,无需开发者构建特定的集成,它使用计算机视觉来解释屏幕内容——这是一种强大的能力,但也引发了关于AI可以访问什么以及何时访问的问题。

软件机器人接管控制:探秘Copilot Actions备受争议的自主性

最具雄心且可能最具争议的新功能是Copilot Actions,这是一项实验性功能,允许AI控制用户的计算机以自主完成任务。

该功能首先面向加入Copilot Labs的Windows Insider成员推出,它建立在某中心五月份宣布的网络版Copilot Actions之上,将其能力扩展到操作Windows PC上的本地文件和应用程序。

在演示过程中,某中心展示了AI代理如何组织照片库、从文档中提取数据、以及处理多步骤任务,而用户则可以处理其他工作。该代理在一个独立的沙盒环境中运行,并对其操作提供实时解说,用户可以随时接管控制。

“作为一个通用代理——只需用你自己的话描述你想要完成的任务,该代理将通过与桌面和网络应用程序交互来尝试完成它,”公告中写道。“当这一切发生时,你可以选择专注于其他任务。在任何时候,你都可以接管任务或查看操作的进度,包括审查已采取的行动。”

某中心的Windows体验负责人Navjot Virk在简报会上承认了该技术当前的局限性。“我们将从一组狭窄的用例开始,同时优化模型性能并学习,”Virk说。“你可能会看到代理犯错或遇到复杂界面的挑战,这就是为什么对此体验进行现实世界测试如此关键。”

Copilot Actions的实验性质反映了代理式AI(能够采取行动而不仅仅是提供信息的系统)面临的更广泛的行业挑战。虽然潜在的生产力提升是巨大的,但AI系统仍然偶尔会“幻觉”出错误信息,并且可能容易受到新型攻击。

AI代理能被信任吗?某中心新安全框架解析

认识到让AI控制用户计算机和文件的安全影响,某中心引入了一个基于四个核心原则的新安全框架:用户控制、操作透明、权限有限和隐私保护设计。

这种方法的核心是“代理账户”的概念——AI代理在其下运行的独立Windows用户账户,与人类用户的账户分开。结合提供沙盒桌面环境的新“代理工作空间”,该架构旨在围绕代理可以访问和修改的内容建立清晰的边界。

某中心的Windows安全工程负责人Peter Waxman强调,Copilot Actions默认是禁用的,需要用户明确选择加入。“你始终控制着Copilot Actions能做什么,”Waxman说。“Copilot Actions默认是关闭的,你可以随时暂停、接管或禁用它。”

在操作期间,用户可以实时监控代理的进度,系统在采取“敏感或重要”行动前会请求额外批准。所有代理活动都在专用的代理账户下进行,创建了一条审计跟踪,以区分AI行动和人类行动。

然而,代理将默认拥有对用户“文档”、“下载”、“桌面”和“图片”文件夹的访问权限——这一广泛的权限授予可能会让企业IT管理员感到担忧。

某中心Windows安全公司副总裁Dana Huang在一篇博客文章中承认,“代理式AI应用程序引入了新的安全风险,例如跨提示注入(XPIA),即嵌入在UI元素或文档中的恶意内容可以覆盖代理指令,导致数据外泄或恶意软件安装等非预期操作。”

某中心承诺将在11月的Ignite大会上提供更多关于企业控制的细节。

游戏、任务栏重新设计及更深的Office集成完成更新

除了语音和自主代理,某中心还对Windows 11的核心界面进行了更改,并将AI扩展到新领域。

新的“Ask Copilot”功能将AI直接集成到Windows任务栏中,提供一键访问以开始对话、激活视觉功能、或“闪电般快速”地搜索文件和设置。这项可选功能不会取代传统的Windows搜索。

文件资源管理器通过与第三方服务的集成获得了AI功能。与Manus AI的合作允许用户右键单击本地图像文件,无需手动上传或编码即可生成完整的网站。与Filmora的集成可以快速跳转到视频编辑工作流。

某中心还引入了Copilot Connectors,允许用户将某云服务、某邮件服务、某互联网巨头的云盘、邮件和日历等云服务直接链接到Windows上的Copilot。连接后,用户可以使用自然语言跨平台查询个人内容。

在生产力领域之外的一个显著扩展是,某中心与其游戏部门为与某硬件制造商联合开发的ROG Xbox Ally手持游戏设备推出了Gaming Copilot。该功能可通过专用硬件按钮访问,提供一个AI助手,可以回答游戏问题、提供策略建议,并通过自然语音对话帮助导航游戏界面。

为何某中心抢在某竞争对手和某搜索巨头之前将AI嵌入各处

某中心的公告是在科技巨头竞相将生成式AI嵌入其核心产品的背景下发布的,此前某聊天机器人于2022年11月推出。虽然某中心迅速将某AI研究机构的技术集成到其搜索引擎中,并在其产品线中引入Copilot,但该公司一直面临AI功能是否在推动有意义的参与度的问题。最近的数据显示,尽管集成了AI,其搜索引擎的市场份额基本保持不变。

Windows集成代表了一种不同的方法:某中心不是单独对AI功能收费,而是将它们构建到操作系统本身中,押注嵌入式AI将推动Windows 11的采用,并在与某竞争对手和某搜索巨头的竞争中形成差异化优势。

某竞争对手采取了更为谨慎的方法,逐步引入AI功能,并通过设备端处理强调隐私。某搜索巨头已将AI整合到其服务中,但在准确性和可靠性方面面临挑战。

关键的是,虽然某中心重点介绍了合作伙伴推出的新款Copilot+ PC型号,价格从649.99美元到1,499.99美元不等,但今天宣布的核心AI功能可在任何Windows 11 PC上运行——这与早期暗示AI功能需要配备专用神经处理单元的新硬件的定位有显著不同。

“我们在这里展示的一切都适用于所有Windows 11 PC。你不需要在Copilot+ PC上运行它。它在任何Windows 11 PC上都能工作,”Mehdi澄清道。

AI功能在整个Windows 11安装基础中的民主化可能会加速采用,但也使某中心对高端设备的硬件销售宣传复杂化。

某中心的AI押注对计算的未来意味着什么

Mehdi用概括性的术语描述了此次公告,称某中心的目标是从根本上为AI时代重新构想操作系统。

“我们对此采取了一种大胆的看法。我们真的觉得我们的愿景是,让我们围绕AI重写整个操作系统,基本上构建真正意义上的AI PC,”他说。

对某中心而言,AI驱动的Windows 11如果成功,可能有助于推动该公司下一阶段的增长,因为PC销售已趋成熟,而云增长面临日益激烈的竞争。

对用户和组织而言,此次公告代表了人机交互方式的一个潜在拐点——如果执行得当,可能会显著提高生产力;如果AI被证明不可靠或难以控制,则可能引发新的安全问题。

科技行业将密切关注某中心对对话式计算和代理式AI的押注,是标志着真正范式转变的开始,还是被证明是另一个未能获得主流青睐的雄心勃勃的界面重塑。

清楚的是,某中心正积极行动,确立其作为AI驱动个人计算领导者的地位,利用其在桌面操作系统中的主导地位,将生成式AI直接带入可能多达十亿用户的日常工作中。

Copilot语音和Vision现已面向全球Windows 11用户提供,实验性功能将在未来几周内面向Windows Insider成员推出。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐