📡 X 信号

AI研究者改用语音与智能代理交互获得更优结果

@omarsar0 1.5万浏览 · 78 喜欢 · 8 转推 · 47 收藏 AI智能交互

终于，使用者不再输入文字提示，转而全程用语音和AI智能代理交互。

他的第一个发现是，语音可以随性输出大量丰富细节给到智能代理。语音描述越长、细节越丰富，最终得到的结果越好。这种交互方式最特别的一点是，可以并行开展更多工作，让智能代理完成更长流程的任务，同时执行多项操作。

他还开发了一项新功能，可以录制屏幕、截取截图、追踪鼠标操作和移动轨迹，还能通过语音给智能代理标注讲解它难以处理的任务，比如设计开发和精准功能开发。

他得出结论，提示的信息模态越丰富，智能代理输出的结果就越可靠，哪怕语音存在杂音也不影响结果。这种方式成本更高，会消耗更多令牌，但换来的结果可靠性值得花费额外成本。

使用者通常会把这些语音内容存储为可复用的命令或技能，在需要的时候注入任务循环，结果前后差异极大。只要相关信息保留在上下文窗口里，就不会有问题。

不过使用者也注意到，在对话初始阶段，或是在同一场智能代理会话中完全切换任务时，偶尔会出现小问题。他认为维护一份词汇词典可能会改善这个问题，但目前这个问题带来的影响并不大。

如果有用户感兴趣，他很乐意开展一场直播，演示这套语音加标注功能的使用方法，以及如何将内容复用为技能。他认为这套交互方式很有吸引力，欢迎感兴趣的人告知他。

📬 订阅 AI Pulse