📡 X 信号

研究人员提出面向智能体的多模态提示交互方法

@omarsar0 8.8K 浏览 · 26 喜欢 · 7 转推 · 41 收藏 AI智能体多模态

多模态提示显然是未来趋势。

我很喜欢试验与智能代理交互的新方式。

作为研究人员兼工程师，我发现，给智能代理的输入越丰富，我接收的输出越丰富，协作的整体结果就越好。

https://youtu.be/_rIziQa48wQ?si=n6tS_uWlmzaO2vJ6

在这个简短演示里，我讲解了我所说的多模态提示是什么意思，以及你可能会在什么场景用到它。

它比简单的文本提示更复杂，因为找不到更贴切的词，我把它叫做「任务」。它能帮我录制语音、标注屏幕、记录点击/鼠标操作等等。

之后所有这些内容都会被预处理，传给智能代理，让它更高效地完成任务。智能代理拿到高级提示，如果需要还能拿到原始转写文本。所以很自然，我也在用它构建多模态技能，复用到智能代理通常难以处理的工作流中。

这套方法已经为我节省了数小时的工作。哪怕是老旧模型，也能更清晰地理解任务，表现相当不错。流程中会引入一些噪声，但似乎并不会损害性能。我还发现，这种新的提示方式减少了我和智能代理交互时的挫败感。

我思考这件事已经有一段时间了，因为我们会越来越深入地进入多模态AI模型的时代。交互方式也会随之演进，模型将能够原生处理多种模态。

目前，我用另一个后台模型处理所有录制的任务，但不难想象，未来所有这些内容都会被全能模型原生处理。

所有这些录制任务（你也可以把它看做带丰富标注的数据集）都会被我挖掘，随着时间递归优化，在某些情况下还会打包成可复用的工作流/模式/技能。

这个过程真的提升了我在各类工作中使用编码智能代理的体验。我会把多模态提示用在网页开发、设计、工件创建、原型制作、研究、阅读、模拟、AI辅助写作等等很多场景。

所以这不仅仅关乎提示工程。它是更深入地理解和探索智能代理做出正确决策所需的恰当细节粒度，从而拓展/最大化它们的能力。

本文由 AI 翻译自英文原帖，技术名词保留英文。

📬 订阅 AI Pulse