为什么 IT 运维中的自动化不足
除了最初的编排和调优,自动化规则遵循一个只写一次的部署模型,几乎可以离开没有适应的余地。每当添加新的企业应用程序时,工作负载就会移动到云中或云之间,或者公司的总体战略计划发生变化,规则也必须如此。
1947年,通用汽车公司成立了第一个现代化的自动化部门。其目标是通过结合一系列机械、液压和计算机技术来简化汽车的生产,以取代通常由小时工资员工处理的耗时和资源密集型任务。
七十年后,自动化现象已经蔓延到各个行业和市场,并在 IT 领域找到了特别热切的受众。整个平台结合了多个脚本来模拟管理员和 IT 环境之间的操作和响应,这使得各个领域的 IT 专业人员能够自动化尽可能多的活动。
现在,从推出新软件和配置系统到重新启动连接已丢失的服务器以及对意外更改采取纠正措施,一切基本上都在自动驾驶仪上。但是,曾经被视为解决 IT 团队问题的灵丹妙药的东西开始显示出对下一波 IT 相关挑战(扩展的基础架构、成倍增加的数据量和快速发展的业务需求)无效的迹象,这让许多人无法想知道:IT 自动化是否足以在数字时代蓬勃发展?如果没有,IT 组织如何才能继续有效运营?
使用静态规则管理动态环境
随着数字化转型,IT 环境比以往任何时候都更加复杂和广阔。有更多的基础设施和更多的应用程序需要管理,更多的数据需要聚合、分析和操作——这一切都得益于混合云战略的出现。
如今,普通企业在多个公共云和私有云中运行数百个应用程序,以努力跟上由日益期待的客户群和其他竞争压力所产生的快速变化的业务需求。云平台的快速(和狂热)采用以及对有用的单点工具的轻松访问创造了一个不断变化和演变的环境,增加了快速变得难以管理的复杂性。事实上,许多 IT 决策者报告说,如果管理不善,他们的数字化转型工作可能会对整个组织产生负面影响。对于传统自动化而言,这一挑战可能过于动态。
众所周知,自动化是基于规则和策略驱动的。这些规则是用于执行特定任务或活动的简单、可预测的命令,并在违反这些任务和活动的阈值时生成警报。自动化规则的范围很窄,是静态的,并且必须与数以千计的其他规则协调以保持操作平稳高效地运行——这正是它们在数字化的现代 IT 环境中不再足够的原因。
除了最初的编排和调优之外,自动化规则还遵循一次编写,随处部署的模型,几乎没有任何适应性空间。每当添加新的企业应用程序、将工作负载转移到云端或在云端之间,或者公司的总体战略计划发生变化时,规则也必须如此。
更重要的是,当今基于云的无服务器环境需要不断调整和更改自动化,并且现有的 IT 团队没有人力、资源或能力来有效地完成这一切。
AIOps 增强自动化
人工智能的兴起是各地 IT 运营专业人员的转折点,因为它可以完全重塑他们管理不断变化的 IT 环境的方法。将 AI 应用于 IT 运营 — AIOps — 不仅可以自动执行最耗时、重复的任务,还可以自动执行更高阶和更复杂的任务。
AIOps 系统将来自整个 IT 环境(本地和云基础设施等)的源目标的数据聚合到单个数据湖中。但与传统的自动化需要为每个可能的场景制定规则来对这些信息采取行动不同,AIOps 学会在人类可能错过的大量信息中主动识别最微弱的预警信号,将其重要性置于上下文中,并立即采取适当和果断的行动无需人工干预。
与团队成员手动仔细研究无数警报并试图区分高优先级和低影响的警报不同,AIOps 工具会自动完成这一切。他们应用映射到特定 IT 操作的微调算法,筛选数百万条日志记录和指标,以显示最关键的警报,从而提高系统性能和健康状况的可见性,让 IT 团队成员能够专注于更高优先级的计划,并提供急需提高 IT 生产力和效率。
多年来,标准 IT 自动化使组织受益匪浅。但是,今天的企业面临着早期很少有人能想到的 IT 管理挑战,而传统的 IT 自动化根本无法应对。随着企业越来越数字化——添加基础设施、推出新服务和整合新数据流——他们将需要更先进、更智能的自动化解决方案来保持对庞大基础设施的完全控制,并在快速发展的竞争环境中跟上步伐。
由 OpsRamp 的数据科学架构师 Jiayi Hoffman 撰写。
自动化控制系统