Parloa打造客户愿意交谈的服务代理
Parloa打造客户愿意交谈的服务代理
在Parloa早期,联合创始人Stefan Ostwald在保险呼叫中心度过了一天,他的团队当时正在构建早期语音体验。与座席坐在一起,他一次又一次地听到同样的对话:密码重置、政策咨询、常规变更。他意识到这些工作大部分都可以自动化。
那次经历后,总部位于柏林的Parloa³(在新窗口中打开)开始构建基于规则的语音代理,以自动化高容量客户交互。
随着ChatGPT的出现,该公司演变为构建现在的AI代理管理平台(AMP),该平台基于包括GPT‑5.4在内的新一代模型。
AMP为企业提供了一种大规模设计、部署和管理客户服务交互的方式。团队不再绘制僵化的意图和流程,而是用自然语言定义行为,连接到内部系统,并使用内置模拟和评估快速迭代。
Parloa端到端运行这些交互,处理从简单路由到复杂的多步骤请求的所有内容。重点在于生产中的一致性,性能、延迟和边缘情况都很重要。为了实现这一点,Parloa在部署前持续针对真实客户场景测试模型。
“模型只有在生产中有效才重要。我们与OpenAI密切合作,使模型足够快速和可靠,以支持实时对话。” ——Ciaran O’Reilly Ibañez,Parloa工程经理
为企业构建者设计AMP
Parloa的代理管理平台(AMP)旨在让业务用户和领域专家无需编写代码即可构建AI代理。
“有了AMP,我们可以让来自不同业务部门的领域专家以更精简、更简单的方式构建代理并连接API,”O’Reilly说。
从高层次看,AMP允许品牌管理整个AI代理生命周期。它通过为非技术团队提供一种更简单的方式,在代理上线前定义其行为来实现这一点。领域专家无需编写代码或绘制僵化的意图树,而是用自然语言设置代理的角色、指令、工具和边界。该配置成为模型提示方式以及系统在生产中行为的基础。
一旦定义,代理在部署前进行测试。Parloa使用GPT‑5.4等模型模拟客户对话,一个模型扮演呼叫者,另一个运行配置的代理。团队可以直接检查这些交互,针对真实场景测试更改,并在上线前进行迭代。
然后使用相同的模型,通过确定性检查和LLM作为评判的评分组合来评估这些对话。这显示了代理是否遵循指令、正确使用工具并按预期完成任务。
在实时对话期间,AMP的编排层使用代理配置和对话上下文提示OpenAI模型生成响应、通过RAG检索信息或触发工具与客户后端交互。Parloa会随着最新一代模型在真实世界性能中表现出明显优势而不断更新此层。
对话结束后,独立的OpenAI驱动工作流会总结交互、分类客户意图并根据定义的规则评估性能。
随着代理变得更加复杂,维护单个单体提示变得越来越困难。微小的更改可能引入意外的副作用。为了解决这个问题,Parloa引入了模块化方法。身份验证、预订更改或账户更新等任务可以分离为独立的子代理,从而改进指令遵循并使系统更容易随着时间的推移而进化。
同时,该平台在可靠性最重要之处纳入了确定性控制。企业可以定义结构化的API链和基于事件的逻辑,以确保关键步骤按正确顺序发生,从而平衡对话灵活性与可预测的执行。
Parloa使用GPT‑4.1、GPT‑5‑mini等模型在代理上线前模拟真实的客户交互,然后使用LLM作为评判和确定性规则相结合的方式评估这些交互。这使得团队能够测试边缘情况、快速迭代,并在让客户面对失败之前验证性能。
评估优先的方法
Parloa主要与大型企业合作,在这些企业中,一致性与能力同样重要。
“当新模型发布时,我们会针对它运行我们的基准测试套件,”高级应用科学家Matthäus Deutsch说。“对我们来说非常重要的是,事情不仅在理论基准测试中有效,而且在实际用例中也有效。”
Parloa不依赖抽象基准测试,而是复制真实的生产代理,并通过模拟和评估管道运行它们。这些测试在真实条件下衡量指令遵循的可靠性、API调用的一致性、延迟和整体性能。
这些评估决定了哪些模型可以投入生产。只有在真实客户场景中表现可靠的模型才会被部署。
“企业客户面临着真实的迁移成本,”Deutsch说。“一旦系统在生产中运行,他们就会保持稳定,只有在收益明确时才进行切换。”
因此,即使在大规模下,系统在生产中也表现可预测。在数百万次客户交互中,大多数对话都能无摩擦地解决。即使呼叫转接到人工座席,升级也很少由失败驱动。在一次部署中,一家全球旅游公司将请求人工座席的次数减少了80%。
这种评估优先的心态已成为核心差异化因素,使Parlavo能够在生产中快速行动而不牺牲可靠性。
构建全球规模的语音服务
语音引入了与基于文本的聊天不同的一系列约束。每次交互都通过低延迟管道运行:语音转文本、模型推理和文本转语音。
该管道使得延迟至关重要。即使模型层的小延迟也会累积成呼叫者注意到的明显停顿,这影响了模型的选择和优化方式。
Parloa与OpenAI密切合作,为实时用例优化性能,重点关注延迟、响应质量和指令遵循。团队在将新模型迭代部署到实时客户交互之前,会在类似生产的环境中持续评估和压力测试它们。
Parloa独立评估语音堆栈的每个组件: - 语音转文本系统针对词错误率进行测试,特别是对于保单号或账户标识符等敏感输入。 - 文本转语音模型通过盲听测试进行评估,以评估语音对真实用户听起来有多自然。然后,将这些结果与真实客户交互进行核对,以确保在生产环境中保持一致性能。 - 端到端语音模型目前正在评估其生产就绪性,重点关注延迟、准确性和成本。
从一开始,这些系统就为全球部署而构建。基准测试涵盖多种语言,客户在全球各个区域运营。这种多语言严格性既反映了Parloa的欧洲根源,也反映了企业客户的期望,他们要求跨市场的一致性能,而不仅限于单一语言或地区。
如今,Parloa的代理涵盖零售、旅游和保险等行业,处理数百万次对话,支持从支持自动化到创收流程(如电话购物)的用例。
技术变革,客户旅程演变
Parloa看到客户服务正在演变为完全多模态的体验。
对话可能从电话开始,在聊天中继续,并沿途包含链接或交互元素。AMP不是将每个步骤视为单独的流程,而是将其设计为处理为单一的交互。随着时间的推移,AI代理可能变得像网站和移动应用程序一样成为客户旅程的核心。
随着企业将越来越多的客户交互自动化,Parloa专注于使AI代理足够可靠、灵活和可信,以便在全球范围内运营。