AI研究者改用语音与智能代理交互获得更优结果
终于,使用者不再输入文字提示,转而全程用语音和AI智能代理交互。
他的第一个发现是,语音可以随性输出大量丰富细节给到智能代理。语音描述越长、细节越丰富,最终得到的结果越好。这种交互方式最特别的一点是,可以并行开展更多工作,让智能代理完成更长流程的任务,同时执行多项操作。
他还开发了一项新功能,可以录制屏幕、截取截图、追踪鼠标操作和移动轨迹,还能通过语音给智能代理标注讲解它难以处理的任务,比如设计开发和精准功能开发。
他得出结论,提示的信息模态越丰富,智能代理输出的结果就越可靠,哪怕语音存在杂音也不影响结果。这种方式成本更高,会消耗更多令牌,但换来的结果可靠性值得花费额外成本。
使用者通常会把这些语音内容存储为可复用的命令或技能,在需要的时候注入任务循环,结果前后差异极大。只要相关信息保留在上下文窗口里,就不会有问题。
不过使用者也注意到,在对话初始阶段,或是在同一场智能代理会话中完全切换任务时,偶尔会出现小问题。他认为维护一份词汇词典可能会改善这个问题,但目前这个问题带来的影响并不大。
如果有用户感兴趣,他很乐意开展一场直播,演示这套语音加标注功能的使用方法,以及如何将内容复用为技能。他认为这套交互方式很有吸引力,欢迎感兴趣的人告知他。