重新构想人工智能时代的鼠标指针

📅 2026 年 5 月 13 日 📖 约 3 分钟 Google DeepMind AI人机交互产品设计

重新构想人工智能时代的鼠标指针 2026年5月12日研究与洞察 Adrien Baranes 和 Rob Marchant

我们正在开发更无缝、更直观的方式来与AI协作

鼠标指针一直是电脑屏幕上的常伴，它出现在每个网站、文档和工作流程中。尽管技术已经发生了翻天覆地的变化，但半个多世纪以来，指针几乎没有进化。

我们一直在探索由AI驱动的新功能，帮助指针不仅能理解它指向的是什么，还能理解这些内容对用户而言为何重要。

我们的目标是解决一个常见的痛点：由于典型的AI工具生活在自己的窗口中，用户需要将自己的世界拖拽进去。我们想要相反的体验：直观的AI能够在用户使用的所有工具中与之相遇，而不打断他们的工作流。例如，想象一下你指向一张建筑物的图片，然后说“给我指路”。当AI系统已经理解了上下文时，无需更多操作。

今天，我们将概述指导我们构思未来用户界面的基本原则，并分享由Gemini驱动的AI赋能指针的实验性演示。例如，你可以访问Google AI Studio，仅通过指向和说话来编辑图片或在Map上查找地点。

（视频展示的是我们AI赋能指针的实验环境。其中的序列经过了缩短处理。）

我们的交互原则

我们制定了四项原则，共同将传达上下文和意图的繁重工作从用户转移到计算机上，用更简单、更直观的交互来代替文本密集的提示。以下是我们的方法和原则的示例说明。

保持流畅性 AI能力应该跨应用运行，而不是迫使用户在它们之间走“AI弯路”。我们的原型AI赋能指针可以在用户工作的任何地方使用。例如，用户可以指向PDF文件并请求生成要点摘要，然后直接粘贴到电子邮件中；也可以悬停在统计数据表格上，请求生成饼图版本；或者高亮一份食谱，要求将所有食材的分量加倍。

展示与告知当前的AI模型需要精确的指令。为了获得良好的回应，用户必须编写详细的提示。AI赋能指针将通过平滑地捕获指针周围的视觉和语义上下文来简化这一过程，让计算机能够“看见”并理解用户关注的重点。在我们的实验系统中，只需指向，AI就能精确地知道用户需要帮助的是哪个单词、段落、图像部分或代码块。

拥抱“这个”和“那个”的力量在人与人之间的日常互动中，我们很少使用冗长详细的段落。我们可能会说“修好这个”、“把那个移到这里”或“这是什么意思？”——同时依靠肢体动作和共同的语境来填补理解上的空白。能够理解这种语境、指向和语音结合的AI系统，将允许用户用自然的简略表达提出复杂请求，无需繁琐的提示。

将像素转化为可操作的实体几十年来，计算机只追踪我们指向的位置。现在AI还能理解用户指向的是什么。这会将像素转化为结构化的实体，例如地点、日期和对象，用户可以立即与之交互。一张写有潦草笔记的照片变成了一个可交互的待办事项列表；旅行视频中暂停的画面，如果出现一个看起来很酷的餐厅，就会变成一个预订链接。

构建适应人类行为的技术——而不是强迫用户适应技术——将开创一个与AI协作真正直观、流畅和无缝的未来。

我们很高兴这些以人为本的概念正被融入我们日常使用的产品中。

在自家产品中的应用

我们正在将这些原则整合到Chrome和全新的Googlebook笔记本体验中，重新构想指针的用途。从今天开始，你不再需要编写复杂的提示，而是可以使用指针在Chrome中向Gemini询问网页中你关心的部分。例如，你可以选择页面上的几个产品并要求进行对比，或者指向你客厅中想放置新沙发的位置。类似地，我们很快将在Googlebook中推出Magic Pointer，让用户能够利用指尖的Gemini获得更直观的体验。由于还有许多其他潜在的好应用，我们将继续在我们的各个平台上测试未来的概念，包括Google Labs的Disco。

在Google AI Studio中尝试AI赋能指针

📎 阅读原文 · Google DeepMind

📬 订阅 AI Pulse