利用Codex构建自我改进的税务代理系统

📅 2026 年 5 月 28 日 📖 约 11 分钟 OpenAI AI工程商业

利用Codex构建自我改进的税务代理系统
Thrive Holdings 与 OpenAI 如何通过融合从业者专业知识和 Codex 驱动的循环，为 Crete 的会计师共同开发 Tax AI
实际系统在生产环境中的表现与实验室中不同，往往以部署前难以预料的方式出错。团队通常在上线后才发现这些故障，然后花费数周检查边缘情况、调整提示词，并将生产反馈转化为持久的产品改进。这个反馈循环是手动的、缓慢的，只有工程师推进它才会进步。但如今，凭借精心设计的评估基础设施、对从业者和真实环境的直接访问，以及 Codex 的前沿智能体能力，你可以构建能够自我改进的智能体。
在这篇文章中，我们将详细解读我们如何使用 Codex 构建这种智能体。过去六个月，OpenAI 的前沿部署工程师和研究人员与 Thrive Holdings 的工程师合作，为 Crete⁠（在新窗口中打开）的30多家会计师事务所共同构建了 Tax AI，以帮助准备日益复杂的纳税申报表。Tax AI 没有依赖工程师来发现和修复每个故障，而是利用 Codex 将生产使用转化为结构化信号，从而推动自主改进。
Crete 的从业者每个季节要准备数万份纳税申报表，这需要处理数百万份底层文件。对于中等复杂度的申报，仅数据输入就可能每份需要8小时，而且经常涉及杂乱的源数据、前一年度的文件、手动提取和计算。他们指出，在税务季节最繁忙的阶段，税务准备是一个重大瓶颈。
为了解决这个问题，Tax AI 在本税务季节为参与试点的 Crete 公司处理了7,000份纳税申报表。该系统自动化了准备1040和1041申报表中大量耗时的工作，但比效率提升更引人注目的是，该系统本身比三个月前首次部署时明显更好。
可衡量的自我改进
在 Tax AI 中，从业者上传源文件以及任何客户特定说明。然后 Tax AI 创建一个税务引擎提交文件，供审核。它能为从业者节省大约三分之一的税务准备时间，以高达97%的准确率起草申报表，并将吞吐量提高约50%，为他们创造更多时间与客户相处。
我们可以通过了解 Tax AI 能在多大程度上准确完成一份申报而无需后续更正的来量化这种改进。我们通过检查有多少申报表达到了字段填写正确率75%、90%或100%来衡量准确性。上线时，只有四分之一的申报表达到了75%的字段填写正确率，但六周内，86%达到了这一标准。该系统在90%和100%字段填写正确率水平上增长更快。这些阈值为我们提供了对不同申报需要多少从业者后续工作的实际了解。
早期，Tax AI 处理较简单的工作，如 W-2 和 1099 表。随着季节推移，它转向更复杂的申报，涉及 K-1、明细表和更难的边缘情况。每项新能力比前一项节省更多时间，因为它承担的任务更艰巨，手动完成更耗时。我们今天仍能看到持续的进步。
接下来，我们将讲解我们的团队如何共同设计了 Tax AI，使其通过依赖三个关键支柱实现自我改进：1）专家从业者反馈，2）生产痕迹（从输入到最终输出的结构化历史），3）基于定制评估的 Codex 驱动的迭代循环，以实现持续、更快的产品开发。我们希望我们的经验对其他构建者有用，特别是在从业者专业知识对塑造整个系统及其运行数据的质量至关重要的领域。
随着 Tax AI 扩展到更复杂的申报，达到75%、90%和完全正确填写率的评分申报比例在税务季节中持续上升。
问题所在
当我们推进到税务准备的更困难部分（K-1、租赁房地产明细表以及需要在多个源文件中协调数值的税务表格）时，显而易见真正的挑战是产品能否让复杂的生产故障变得可见、可理解和可操作。
在产品早期，大部分更正是手动的。从业者可以纠正系统错误，但产品没有捕获完整的上下文：提交之前更改的值可能反映了真正的提取遗漏、映射问题、缺少产品支持或预期的工作流噪声。对这些情况的分类仍然需要工程团队的跟进。工程师可以使用编码智能体，但系统尚未设计为在改进循环中有意义地使用 AI。我们没有信号来确定应该攀登哪座山。
我们的方法：一个由三部分组成的循环
这引导我们围绕三个支柱设计系统：
1. 贴近从业者：实际工作的人需要指导产品学习什么。他们的直觉和理解揭示哪些错误重要，并有助于确定工作流的哪些部分值得下一步关注。
2. 构建产品，使生产创造证据：产品必须捕获的不仅仅是输入和输出；它需要捕获从源材料到提取字段及其出处，再到下游提交和专家更正的完整路径。
3. 创建 Codex 驱动的改进循环：一旦生产问题变得可见和结构化，它们就可以成为发现、定制评估和范围明确的工程任务。然后 Codex 可以帮助调查、提出更改、针对定向和回归评估进行验证，并以比纯手动迭代周期更快的速度推进产品。
下面的租赁房地产示例展示了该循环在实践中如何运作，引导您了解从业者的更正是如何变成结构化发现，然后是评估目标，最后是 Codex 范围的工程任务。
租赁房地产示例
租赁房地产收入在个人纳税申报表的附表 E 中报告。从工程角度来看，提取它的任务描述起来很简单，但要做好却很难。系统必须读取混乱的源材料（手写笔记、电子邮件、电子表格和其他客户文件），提取系统能够自信地映射到税务引擎的租赁房地产字段，并保留足够的证据，以便从业者可以批准或更正结果。下面的简化示例展示了这些源文件和提取输出可能的样子。
租赁房地产源包被归一化为带引用的字段，然后映射到下游税务引擎概念。
1. 从业者的更正揭示了故障
智能体预测值与已申报纳税申报表中的实际值之间的差异可能反映了真正的提取遗漏，但也可能是从业者的偏好、税务引擎中前一年申报结转的值，或者是在申报工作流程其他部分引入或更改的值。从业者帮助我们区分这些情况，以便我们识别哪些操作需要从业者更正或阻止提交。
因为我们能够看到这些更正的详细信息，我们将审查过程从一个终端、故障后步骤转变为一个持续的学习循环。我们设计了工作流来捕获作为结构化数据的专家操作。现在，每次干预都会通过准确记录 Tax AI 提议了什么、从业者修改了什么以及最终进入已提交申报表的内容来反馈给产品的改进循环。
2. 产品痕迹将更正转化为评估
对于像租赁房地产这样复杂的工作流，系统必须保留源文件和已提交申报表之间发生的一切。在此路径上，文档被整理、拆分和分类；租赁房地产字段被提取并附有指向源材料的引用；这些值被映射到税务引擎；从业者可能仍在提交之前更正它们。这些产品级别的痕迹使得可能调查故障发生在哪里。为了将从业者的更正转化为有用的评估目标，系统分三步处理它们：
- 捕获差异：Tax AI 的输出与已提交申报表进行比较，生成字段级别的审查行，捕获期望值、预测值以及差异是否看起来可操作。
- 对相关故障进行分组：类似的审查行被分组，以将反复出现的产品故障与预期的工作流噪声分开。例如，重复的从业者更正可能表明 Tax AI 经常遗漏“合理租赁天数”字段、错误处理“其他费用”，或者混淆同一源包中的多个租赁房地产。
- 将重复模式转化为评估目标：经过审查和测量后，重复的发现成为 Codex 可以改进的明确评估目标。
租赁房地产审查行将反复出现的产品故障与预期噪声分开，然后将可操作的情况转化为评估目标，为 Codex 提供一个可攀登的山丘。
3. 发现成为 Codex 可攀登的山丘
第三个支柱是创建一个能够针对这些新评估采取行动的工程循环。这正是 Codex 成为核心的地方。
假设我们的评估管道标记出 Tax AI 始终遗漏“合理租赁天数”字段，而从业者能可靠地填写它。由于此发现已被打包成一个有针对性的评估集，包含代表性的源包和期望输出，Codex 可以直接在产品框架内调查根本原因。
Codex 不仅仅处理一个低于标准的最终输出。它一起检查痕迹、评估、代码库和技能：
- 调查管道：检查源包、提取模式、映射器行为和代码路径，以确定问题是不支持的字段、遗漏的提取模式、源选择问题、映射器缺口还是评分器问题。
- 实施有目标的修复：扩展提取模式，改进租赁房地产文档的源选择，更新税务引擎映射器，或者如果预期的工作流噪声被计为故障，则细化评分器。
- 验证并提出：重新运行目标评估，运行更广泛的回归套件，并为工程审查提出候选拉取请求。
- 关闭循环：将重复的从业者更正转化为可衡量的工程任务。如果证据不明确或不能安全自动化，则该案例返回到产品团队，而不是被迫通过循环。
端到端的自我改进循环：生产痕迹暴露重复的字段级别更正，这些更正成为故障信号，Codex 可以连同痕迹、评估、代码库和技能一起检查。可操作的模式成为有边界的评估和候选产品更改；模糊的案例路由回工程师进行审查。每个发货的改进都会为下一个周期创造新的生产证据。
如何使用 Codex 构建这个循环
租赁房地产示例是更广泛可重用模式的象征：使用生产工件和痕迹来改进智能体的能力。给定来自生产数据的经过审查的发现、源痕迹、期望的税务引擎输出、相关代码示例和评估命令作为一组输入，Codex 可以在数周和数月内显著提高性能和准确性。这建立在我们关于“整理工程”和“交响曲”工作中描述的原则之上，这些工作解释了如何使任务对 Codex 可读、提供范围限定的上下文和工具，以及将验证和人工审查保持为环境的一部分。
这些证据不会自动成为 Codex 任务。从业者的更正可能反映提取遗漏、映射问题、不支持的产品行为、税务判断或预期的工作流噪声。只有在重复的差异被审查并分组为可操作的发现后，系统才会将它们转化为一个有明确成功条件的有限任务。
我们将这种自动化应用于产品的有限层。该层执行提取并将源文档映射到税务工作流。工程师仍然负责架构、产品决策和发布。从业者通过他们已经做的工作来引导改进循环：更正提取的值、审查申报表和批准最终申报。
对于 Codex，结果不是一个模糊的警报，而是一个带有证据、可编辑的产品表面和明确验证门的范围限定的工程任务。一个代表性的租赁房地产任务的上下文可以总结如下：
一个有边界的 Codex 任务环境将可写工作树 [1] 与只读生产上下文 [5] 分开。工作树包含 Codex 可以检查或修改的范围限定的产品表面 [2]、定义成功的目标和回归评估 [3] 以及编码如何运行任务并尊重先前决策的可重用技能/文档 [4]。只读上下文提供生产痕迹、源文档、Tax AI 预测、最终确定的申报表和税务引擎字段文档，以便 Codex 可以调查故障而不改变底层证据。
扩展到新领域
同样的循环也适用于租赁房地产之外。租赁房地产花费了大约六周时间和大量工程监督才达到90%的精度和召回率，但这项工作产生了可重用的抽象、审查工件、评估约定和实现模式，使得支持同样复杂的附表（如附表 C 和附表 A）变得更加容易。
Tax AI 证明了构建自我改进智能体的路径。从业者通过提供服务产生高价值反馈信号。产品工作流将这些信号保存为结构化证据。基于评估的工程系统在改进进入生产之前进行验证，而一个由智能体驱动的循环使系统保持在持续自我改进的流程中。
Thrive Holdings 的结构允许我们在特定行业中复制这种环境。Holdings 既是所有者又是运营商，因此我们的联合工程团队能够直接与从业者和来自像 Crete 这样的企业内部的生产数据合作，不是作为供应商，而是作为合作伙伴。这意味着技术、产品和服务都放在同一个屋檐下，帮助我们更快地行动并构建卓越的产品。
一位去年花了180小时进行税务准备的高级会计今年只花了15小时。她将其中一部分时间用于给她的每一位客户打电话并为他们讲解申报表，这是一种一年前还不可能提供的高接触服务。剩下的时间她用于接手新客户并扩展新的服务产品。
我们的团队现在正在使用 Tax AI 的相同三部分设计作为在其他 Thrive Holdings⁠（在新窗口中打开）领域构建工作流的蓝图；会计工作流（如簿记和审计）以及运营工作流（如 IT 服务台自动化）。跨领域和行业，自我改进智能体的更广泛前景是成立的。最好的智能体由人引导，随着时间推移学会变得更有能力、更值得信赖和更有价值。
要了解有关从事此项目的 OpenAI 团队的更多信息，请联系我们。

阅读原文

📚 相关主题工程商业

📬 订阅 AI Pulse