技术星期二:掌握企业 AI 部署的 AgentOps
人工智能代理正在从演示转向生产工作负载,接触真实数据、真实系统和真实业务成果。根据 G2 的 2025 年人工智能代理洞察报告,57% 的公司已经在生产中运行人工智能代理,这清楚地表明这不再是实验性的。然而,生产部署带来了新的运营负担:工具访问控制、可审计性、偏差检测和失控成本预防。
这种转变要求 IT 和技术领导者制定新的运营纪律。
AgentOps 是代理操作的缩写,是一组新兴的实践,用于管理生产中人工智能代理的整个生命周期。它将原则从 DevOps 和 MLOps 扩展到代理系统,重点关注可靠性、治理、透明度、安全性和成本控制。
与传统的软件操作不同,AgentOps 必须应对非确定性行为、自主工具使用和上下文相关推理。这些是传统监测无法解决的挑战,新的研究已经证明了这一点。王等人。 (2025) 在他们的调查“AgentOps 调查”中正式阐述了这一点,提出了一个专门适用于大型语言模型 (LLM) 驱动的代理系统的四阶段操作框架(监控、异常检测、根本原因分析和解决方案)。
本文概述了企业 AgentOps 的实用最佳实践。它涵盖目标和护栏、工具和数据连接、长期运行流程的编排、生命周期治理、人机交互模式以及通过评估和操作遥测进行的持续优化。稍后,我们将这些实践映射到 UiPath Platform™ 如何支持生产中的代理编排。
可以重复使用的 AgentOps 清单
在将代理投入生产之前,团队应该能够清楚地回答以下问题:
-
我们是否知道每个代理负责什么以及谁拥有它?
-
我们能否控制代理可以使用哪些工具以及使用哪些输入?
-
我们能否解释一下代理在给定的运行中做了什么,包括它调用了哪些工具以及它使用了哪些数据?
-
我们能否在发布前验证代理行为,不仅是结果,还包括工具选择和执行路径?
-
随着时间的推移,我们能否使用一致的评估标准来检测漂移和回归?
-
我们能否限制和预测模型调用、重试、上下文大小和编排持续时间等成本驱动因素?
-
我们可以通过版本控制、环境升级和回滚安全地推出更改吗?
-
我们是否有针对高影响力行动和例外情况的清晰的人机交互模型?
从提示到操作代理:目标、护栏和信任
生产代理需要明确的目的、约束和责任。它必须明确它所负责的结果、它必须遵守的政策、需要什么证据或理由,以及何时服从某个人。
第一个最佳实践是在部署之前定义每个代理的目标、边界和升级规则。
组织应应用多层治理,以便代理行为与安全和合规性要求保持一致。至少,治理需要涵盖谁可以构建和发布人工智能代理、可以使用哪些模型、运行时可以访问哪些数据和工具以及在没有人工监督的情况下允许哪些操作。
人工智能代理应该受到工具护栏的约束,这些工具护栏定义可以调用哪些工具、允许哪些输入、允许哪些副作用以及何时必须阻止工具调用或将工具调用路由给人类。
通过低代码和编码开发经验,团队应该能够以结构化、可信和透明的方式定义其代理规则手册(行为、工具访问和运行时约束)。内置评分、评估和监控有助于保持一致的代理性能并防止漂移和回归。
同样重要的是,团队需要一种安全的方法来测试代理在连接到实时系统之前的行为方式。能够在生产之前通过模拟验证和生成新的运行时场景,有助于及早发现集成脆弱性,减少运行时意外,并建立代理在连接到真实企业应用程序时可靠运行的信心。用户应该能够生成他们的代理可能遇到的输入场景,并在适当的情况下,在调试和评估运行中端到端地调用模拟工具。这样可以更轻松地了解代理是否选择了正确的工具、传递了有效的输入、优雅地处理了工具故障,并在不给实时系统或数据带来风险的情况下产生了预期的结果。
将人工智能代理连接到企业工具和数据
为了创造商业价值,人工智能代理必须连接到企业应用程序,如客户关系管理 (CRM)、企业资源规划 (ERP)、票务、知识存储库和内部 API,包括缺乏干净 API 的系统。
AgentOps 的一个关键最佳实践是受控工具访问。工具应该是明确的、受管理的和可审计的。在实践中,这意味着代理不应以不受控制的方式执行任意操作。它应该通过具有定义的输入和输出、验证、日志记录和错误处理的批准接口进行操作。
每个工具调用都应该是可观察和可审计的,以便操作员能够了解发生了什么以及为什么发生。
发布工具和上下文的标准化方法可以帮助团队安全地扩展规模。例如,模型上下文协议 (MCP) 服务器提供了一种结构化方法,以一致的、可发现的格式向代理公开企业资源,同时强制执行身份验证、授权和策略控制。标准化还可以实现跨代理和工作流程的重用,因此可以安全、一致地共享可信的自动化资产。
组织还需要灵活的部署模式。人工智能代理可以通过推理来增强确定性过程,作为可重用工具公开,或者作为更广泛的业务工作流程的一部分编排的独立组件运行。灵活性很重要,因为它允许增量采用,同时保持控制、安全性和操作可靠性。
生命周期治理:将代理作为企业资产进行管理
随着代理部署规模的扩大,组织必须将代理视为企业资产。最佳实践包括维护代理清单、明确的所有权、版本控制、权限以及每个代理所涉及内容的可见性。
高管和风险团队需要明确的答案,了解代理存在哪些、谁拥有它们、它们访问哪些数据和系统、哪些流程依赖于它们,以及哪些版本在哪些环境中运行。
这种生命周期方法取决于身份、访问管理和可追溯性。代理应以具有最低特权的范围身份运行。治理应强制规定谁可以构建、部署和操作代理,以及允许哪些运行时行为。低代码和编码方法都可以发挥作用。低代码可以使逻辑可审查和协作,而编码路径可以实现跨团队的强化验证、共享库和标准化策略实施。
透明度同样重要。生产级 AgentOps 需要能够了解 AI 代理做了什么、调用了哪些工具、涉及哪些输入和输出以及为什么做出决定。这种可追溯性支持审计、事件审查以及跨技术和业务利益相关者建立信任。
实例级别的操作可见性是大规模具体化的地方。团队需要跨代理组的聚合视图,包括重放会话的能力、按代理或版本查看可靠性趋势,并了解哪些集成使用最频繁,哪些集成失败。
这些观点很重要,因为如果没有它们,组织最终会在黑暗中管理代理,无法判断成本飙升是由单个错误配置的代理还是整个舰队的系统性问题引起的。
人机交互作为一流模式
人工监督对于许多企业工作流程仍然至关重要。设计人机交互步骤的最佳方法是主动规划它们,而不仅仅是作为后备方案。人们可能会批准高影响力的行动、纠正输出、提供缺失的上下文或在异常情况下接管。
AgentOps 应支持明确的人类活动步骤,例如批准、审查和异常处理。应将代理配置为根据置信阈值、交易风险或策略约束进行升级。这创建了一个受控的操作模型,其中人工智能处理常规案例,而人们则管理边缘案例和高风险决策。
持续优化:保持 AI 代理的可靠性并不断改进
部署代理是其生命周期的开始,而不是结束。在生产中,代理会遇到新的输入、不断变化的数据和不断变化的系统。一个主要的新问题是代理漂移,由于目标、上下文、推理或工具交互的变化,生产中的代理与评估期间的代理表现不同。漂移可以通过多种方式表现出来。传入任务的分布发生变化、底层数据或知识源发生变化、LLM 行为在模型版本之间不断演变,或者与外部工具的集成降低。
连续偏差检测应该是 AgentOps 的核心职责,定期计算,与基线进行比较,并在超过阈值时触发修复。
评估驱动的开发理念将评估视为整个生命周期中的一流工件,而不是一次性的门。设计时和部署后评估形成一个连续的循环,定义质量、一致地测量质量,并随着代理的发展指导安全迭代。
以一致的质量信号为基础的设计时和运行时评估
在设计时,评估会在代理到达生产之前确定“好”的样子,涵盖结果和重要的行为,例如工具选择、中间决策和执行轨迹。
部署后,可以使用执行跟踪将相同的标准应用于实际生产运行。两个阶段的结果应该汇总成一致的性能信号,以便随着时间的推移跟踪质量、比较版本并及早检测回归,同时仍然允许团队深入探究根本原因。
优化、反馈和内存作为循环的一部分
评估结果不仅仅是衡量质量。他们应该积极推动改进。人类反馈和操作结果可以与评估和跟踪联系起来,扩展回归套件,并在适当的情况下通知受控代理记忆。
评估、受控反馈循环和严格的记忆实践共同创建了一个系统,在该系统中,代理通过可测量、可解释和持续验证的变化进行改进。
成本管理作为 AgentOps 学科
人工智能代理引入了与运行时行为相关的动态成本驱动因素。模型调用、工具使用、重试、编排持续时间和上下文大小都会加起来。
成本应该尽早被视为首要问题。
团队应该能够在部署之前比较不同代理版本的效率,识别浪费的轨迹或不必要的工具调用,并在生产成本变得昂贵之前捕获超大的上下文。
在生产中,组织需要了解每次运行、每个代理以及总体的成本可见性,因此操作员、管理员和领导者可以从相同的事实来源进行工作。限制和警报有助于防止支出失控,而重试、超时和升级路径等编排控制则可以限制执行。总之,这可以实现持续的成本优化,在发布之前评估变更的质量和效率,并在推出后使用实际执行数据进行验证。
企业规模的标准化和部署
扩展代理自动化需要可重复的操作模型,其中新代理默认继承经过验证的模式。标准化减少了团队之间的差异,同时确保质量、安全和成本控制的一致应用。可重用的结构、一致的工具合同和共享的评估方法可以帮助团队更快地前进,而无需重新学习相同的经验教训。
在运行时,组织受益于统一的控制平面,无论代理是如何编写的,该控制平面都可以管理执行。批准、重试、异常处理和人工参与等常见问题应该一次性实现并在工作流程中重复使用。共享资产、策略和护栏应在整个代理团队中传播改进,同时支持低代码和代码,以便团队可以从实验转向强化生产,而不会破坏生命周期或随着规模的增加而失去对成本和使用情况的可见性。
UiPath 如何在实践中支持 AgentOps
目标、护栏和信任
UiPath 提供信任和治理基础,旨在使代理行为与企业安全和合规性要求保持一致。组织可以应用多层治理:
-
代理治理:平台级策略护栏强制开发人员访问、LLM 使用、在发布事件时检查代理评分值以及数据访问。可以使用 LLM 和工具护栏来设计代理,限制代理与企业系统交互的方式,包括可以调用哪些工具、允许哪些输入、允许哪些副作用以及何时必须阻止工具调用或将工具调用路由给人类。
-
IT 治理:UiPath 提供可运行工件的身份、跟踪基于角色的访问控制 (RBAC)、个人身份信息 (PII) 动态检测以及数据治理,以保护敏感的代理自动化。访问是有意且透明的。
-
基础设施治理:数据驻留、加密、网络边界、安全强化以及遵守通用数据保护条例 (GDPR)、1996 年健康保险流通和责任法案 (HIPAA)、联邦风险和授权管理计划 (FedRAMP®) 和 ISO 27001 等标准。
UiPath 还支持通过模拟在生产前建立信心。用户可以使用自然语言来生成其代理在调用时可能遇到的输入场景。他们还可以选择在调试和评估运行中端到端地模拟工具调用,以了解轨迹。这有助于验证工具选择、输入正确性、工具故障恢复能力以及预期结果,而不会给实时系统或数据带来风险。
工具和数据连接
在 UiPath 平台中,“工具”是具有定义的输入和输出、验证、日志记录和错误处理的具体集成和自动化。每个工具调用都可以被监视、跟踪和治理。
UiPath 还支持 MCP 服务器作为向代理公开自动化和企业资源的标准化方式。 MCP 服务器充当受管网关,以一致、可发现的格式发布工具、操作和上下文,同时强制执行身份验证、授权和策略控制。 MCP 服务器进一步支持跨代理和工作流程的重用,确保可以安全、一致地共享相同的可信自动化资产。
UiPath支持灵活的部署模式。可以嵌入代理以通过推理增强确定性流程,通过 MCP 作为可重用代理或工具公开,或者部署为独立的代理组件,作为 UiPath Maestro™ 中更广泛的业务工作流程的一部分进行编排。
生命周期治理和可追溯性
每个代理都可以在具有最低特权的范围身份下运行。平台治理强制规定谁可以构建、部署和操作代理,以及允许哪些运行时行为。低代码和编码方法有助于维持大规模治理。
UiPath 跟踪服务提供代理状态、工具调用的详细运行时日志,以及代理循环中 LLM 推理的解释。这在设计时、评估时和运行时适用于 UiPath 中管理的所有代理,并且可通过 OTEL 扩展到受支持的商业智能供应商。
UiPath 显示整个代理组的聚合视图,包括会话重放、显示每个代理或版本的可靠性趋势的故障率仪表板以及工具使用统计数据。
人机交互模式
UiPath 支持明确的人工活动步骤,例如批准、审查和异常处理。代理可以配置为根据置信阈值、交易风险或策略约束进行升级。
评估、优化和受控内存
设计时和运行时评估结果汇总到代理分数中,这是一个一致的性能信号,用于跟踪一段时间内的质量、比较版本和及早检测回归。
UiPath Maestro™ 中的优化功能和 UiPath Studio 中的 Agent Builder 会评估评估和运行时数据,以创建可测量的改进建议,并将其应用回相应的定义中。人类反馈和操作结果可以与评估和跟踪联系起来,扩展回归套件,并在适当的情况下通知受控代理记忆。
成本管理和有限执行
UiPath 提供每次运行、每个代理和聚合的成本可见性。硬许可限制和警报可防止支出失控,而重试、超时和升级路径等编排控制则可保持执行范围。
标准化和编排
在运行时,UiPath Maestro 充当统一的控制平面,无论代理的编写方式如何,它都可以管理执行。批准、重试、异常处理和人工参与等常见问题只需实施一次即可在工作流程中重复使用。共享资产、策略和护栏可在整个 AI 代理团队中传播改进。
摘要
AgentOps 将 AI 代理转变为持久的企业功能。它需要治理、透明度、可靠性工程、严格评估和成本控制。
UiPath 平台在 UiPath Studio 中结合了 Maestro 和 Agent Builder,通过将代理创建和评估与持久编排和企业治理相结合来支持这些要求。它们共同支持一种企业模型,在该模型中,代理处理解释和规划,自动化执行确定性步骤,而人们通过批准和监督保持牢固的控制权。
这是企业安全可靠地扩展代理自动化所需的基础。人工智能代理在真实业务流程中作为受管资产运行,具有明确的责任、可衡量的绩效和持续改进。
自动化控制系统