释放生产力:将 UI 自动化与基于 LLM 的自动化结合起来
最近,许多领先的人工智能公司推出了新功能,利用其强大的基础大语言模型 (LLM) 快速自动化人们在屏幕上执行的许多操作。 Anthropic 的 Computer Use、Amazon Q Business 和即将推出的 OpenAI“Operator”可以快速理解屏幕、操作正在使用的软件并模拟用户所需的操作,而无需任何编码或模型训练。
基于法学硕士的自动化是一种新的自动化方式。它与 UI 自动化有很大不同,后者依赖经过训练的模型和基于规则的方法来提取信息并与屏幕、系统和软件交互。由于基于 LLM 的自动化使用起来非常简单,一些行业观察家建议它可能会取代 UI 自动化。
我们对这些新技术进行了广泛的评估,我们对它们在扩大自动化对企业和用户的影响方面的潜力感到兴奋。事实上,我们正在将其中最好的集成到我们的平台中。因为它们允许人工智能像人类一样与软件交互,所以我们相信它们可以真正彻底改变人与屏幕之间的交互。它们有可能将个人生产力提高到新的高度,并允许几乎任何人成为公民开发人员,以自动化他们繁琐的重复性任务。
然而,基于LLM的自动化永远不会在每个流程中完全取代UI自动化。例如,对于涉及访问多个系统以及处理敏感或专有数据的大批量、关键任务自动化流程来说,UI 自动化是更好的选择。这些类型的流程在整个企业中比比皆是,而且一般来说,通过 UI 自动化可以更好地处理它们。
为了理解为什么会这样,让我们快速深入了解每种方法的工作原理。
UI 自动化和基于 LLM 的自动化工作方式不同,这一点很重要
基于法学硕士的方法通常采用多模式法学硕士(理解图片、文字、音频等)来“阅读”屏幕并采取行动。该方法取决于法学硕士了解云中托管的屏幕上的信息(数据、字段等)。然后,模型预测人类将采取的行动,并发送采取行动的指令(复制和粘贴数据等)。
相反,在 UI 自动化中,机器人遵循一组预先开发的指令来完成定义的任务。它们可以在客户和/或用户的环境中运行。数据只能在本地进行解释,机器人遵循一组清晰、确定的指令。最近人工智能驱动的进步显着提高了稳定性和可靠性,解决了许多 UI 自动化最初的脆性和破损问题。
UI 自动化的明显好处
在自动化需要高安全性和准确性的复杂、大容量、多系统流程时,这两种方法之间的差异非常重要。对于这些类型的工作流程,UI 自动化是更好的选择。原因如下:
准确性和完整性:订单到现金等关键任务流程取决于数据从一处到另一处的准确提取、移动和发布,以及围绕这些活动的文档和通信。在这一领域,基于 LLM 的方法无法与 UI 自动化的性能相匹配。
例如,对 UiPath 数据的分析表明,我们所有客户的自动化中有 96.5% 使用我们的 UI 自动化方法成功运行。关于基于人工智能的自动化的公开数据表明,它的可靠性明显较低。例如,Anthropic 在一项旨在评估开发人员使用计算机的模型尝试的测试中报告了 14.9% 的准确率,远低于 70-75% 的人类技能水平。虽然准确性肯定会随着时间的推移而提高,但要实现与 UI 自动化同等的水平还有很长的路要走。
还有其他问题。所有法学硕士都容易产生幻觉,并可能采取不可预测的行动。例如,人类研究人员注意到其法学硕士突然偏离任务的情况——点击错误的屏幕或莫名其妙地下载国家公园的照片。 UI 自动化的确定性机器人根本缺乏像这样失控的能力。
然后是完整性问题。拍摄可见屏幕图片的方法可能会丢失延伸到边距以下的下拉列表上的数据。而且它可能会忽略拍摄照片时未发生的短暂动作。 UI 自动化不存在这些问题。
安全和治理:当涉及到确保隐私、阻止恶意入侵以及将专有数据保留在防火墙内时,UI 自动化是一个风险明显较小的选择。例如,通过 UI 自动化,仅收集所需的数据。与基于 LLM 的自动化相比,UI 自动化不涉及批量提取可能无意中包含敏感数据的屏幕截图。此外,执行 UI 自动化的 UiPath 软件机器人可以得到认证,并且可以控制它们对敏感数据的访问。基于 LLM 的自动化目前无法提供这种级别的安全性。
对我们来说,这不是非此即彼,而是两者兼而有之
当我们展望未来时,很明显,基于法学硕士的自动化的兴起代表着某些类型的流程和活动的巨大飞跃。世界即将实现这样的梦想:将即时、无代码、提示驱动的自动化交到几乎每个使用屏幕和软件的人手中,从而开创个人生产力和绩效的新时代,这与我们之前所见过的不同。
我们已经采取措施将这些类型的功能引入 UiPath Platform™。特别是,我们很快就会将其纳入我们的最终用户体验中,例如 Autopilot™ forEveryone,并提供基于 LLM 的自动化作为公民开发人员和自动化专家的额外选项。
我们知道企业希望利用这些新功能,但希望安全且完全控制。 因此,我们一直在扩展平台的功能,以提供企业所需的必要编排、管理和治理,无论他们采用哪种模型。
但即使我们扩展了对基于 LLM 的自动化的功能和支持,我们仍在继续提升我们的 UI 自动化功能,因为 UI 自动化将成为各种关键企业流程的最佳解决方案。我们将继续利用新兴的人工智能进步,使我们的 UI 自动化更加智能,更容易理解和采取行动,而无需大量编码和培训,并且更具弹性。一个典型的例子:新的 UiPath Healing Agent(现已公开预览版),它可以自我修复失败的自动化。
简而言之,UiPath 相信所有形式的 LLM 支持的自动化的未来,包括基于 UI 和 LLM 的方法。 每个人都有独特的优势;对于一组特定的自动化机会来说,每一个都是更好的选择。我们的目标是通过一个企业平台使这两种方法以及任何新出现的人工智能方法可用,该平台可以编排、治理和管理当今和未来可用的全套自动化选项。
自动化控制系统