AI 解决数据中心的工作负载管理挑战
随着数据中心的工作量螺旋式上升,越来越多的企业开始关注人工智能(AI),希望通过技术帮助它们减轻IT团队的管理负担,同时提高效率和削减开支。
人工智能承诺将工作负载实时自动移动到最高效的基础设施,既包括数据中心内部,也包括由on-prem、云和边缘环境组成的混合云设置。随着人工智能对工作负载管理的转变,未来的数据中心可能会与今天的设施有很大的不同。一个可能的场景是由远程管理员管理的小型、互联的边缘数据中心集合。
InfosysKnowledgeInstitute是一家专注于商业和技术趋势分析的机构,其负责人JeffKavanaugh表示,由于各种因素,包括更激烈的竞争、通货膨胀和大规模的预算削减,许多组织都在寻找降低数据中心运营成本的方法。他说:“人工智能和自动化已被证明是工作量管理的强大工具,因为它将员工从耗时和平凡的任务中解放出来,让他们专注于实际上需要人类来完成的工作。”
大多数数据中心管理人员已经使用各种传统的非人工智能工具来协助和优化工作负载管理。然而,专业服务公司毕马威(KPMG)咨询总监肖恩?肯尼(SeanKenney)表示,这些工具往往是被动的,而不是主动的。“他们对数据中心的问题做出反应,但他们不收集数据来确定减少问题行为的任何远见,”他指出。
芝加哥伊利诺伊大学(UniversityofIllinois)生物医学和健康信息科学临床助理教授桑ketShah认为,人工智能现在正准备帮助那些发现自己没有可靠方法来预测或规划未来需求的数据中心管理者。他解释道:“有了人工智能,能力和马力可以以一种更有效的方式分配,允许组织扩大规模,变得更灵活。”“对于那些数据需求快速变化的(管理人员)来说,将某些流程自动化并在必要时转移权力,最终将降低成本。”
利用人工智能技术管理数据中心的想法并不新鲜。例如,谷歌曾在2014年披露,它正在利用收购英国人工智能专家DeepMind所获得的技术,加强其几个站点的数据中心设施和设备管理。今天,人工智能工作负荷管理领域已经大大扩展到包括许多初创公司,如DLabs、digitate、RedwoodSoftware和TidalSoftware。思科(Cisco)、IBM和VMware等规模较大的公司也已开始进入该市场。
与人工智能的大多数事物一样,工作量管理技术正在迅速发展。华盛顿大学信息学院副教授BillHowe指出:“有很多选择和限制,但通常都有办法减轻这些限制。”“我不认为选择正确的方法和工程解决方案有什么问题……与其他任何复杂的人工智能应用程序相比,工作量管理的挑战性更大或更小。”
满足需要
对于大多数数据中心管理者来说,最优先考虑的是优化运营以满足峰值需求。然而,无论他们计划和准备得多么仔细,需求的高峰和低谷往往仍在他们的控制之外。商业咨询和咨询公司凯捷北美公司(CapgeminiNorthAmerica)的人工智能工程副总裁古瑟姆·贝利亚帕(Gouthambelliaappa)表示:“人工智能能带来的独特改进在于,它能理解工作量模式,并将这些需求与数据中心的容量匹配起来。”
人工智能管理承诺将数据中心团队从一系列平凡、重复的任务中解放出来,包括服务器管理;安全设置;计算、内存和存储优化;负载平衡;还有电力和冷却分配。科技市场咨询公司ABIResearch首席分析师LianJyeSu表示:“所有这些工作都可以通过人工智能实现自动化或增强。”
IT管理软件开发公司ManageEngine的人工智能和机器学习产品总监RamprakashRamamoorthy表示,人工智能可以帮助分析从单个机器收集的数据,并发现被监控参数中的异常。他补充说:“人工智能还可以帮助更早地预测故障和中断,这可以帮助数据中心管理团队减少停机时间,并使集群保持良好的运行状态。”“人工智能还可以实现更好的温度和电压管理,从而直接降低运营成本,并有助于减少碳足迹。”
Ramamoorthy说,虽然可以使用各种人工智能方法,但工作负荷管理工具应该始终确保模型预测是完全可解释的。他解释说:“与其他领域相比,数据中心工作量管理中的人工智能系统做出的决定往往由一个或多个团队共同作出。”因此,AI模型决策应该是可解释的,允许IT团队更好地理解模型决策的意图并相应地采取行动。他指出:“人工智能模型的准确率最多可以达到80%到85%,所以这也有助于人类团队通过正确解释人工智能模型的决策来做出明智的决策。”如果人工智能模型能够给它所给出的决策一个信心评分,那么它对于有效的工作量管理也将是有用的。
人工智能和机器学习开发公司Tanjo的联合创始人兼首席执行官理查德?博伊德(RichardBoyd)表示,随着人工智能和机器学习工具的普及,各组织都认识到,只有当人类智能与这些技术合作而不是竞争时,才能取得最好的结果。他表示:“机器在很多方面都无法取代人类,但在某些领域,机器肯定比人类好得多。”“一旦人工智能和机器学习流行起来,工人们适应了这种新的合作关系,人们的看法就会改变。”
DellTechnologies的AI战略主管BronsLarson表示,数据中心可以利用AI/ML来提高性能,并优化配置和部署。“AI/ML支持动态编排资源与工作负载,以优化资源利用,更好地管理成本,”他说。拉尔森补充说,所有的人工智能解决方案,无论是应用程序还是供应商,都需要专业知识来正确配置和优化价值。“首先要正确捕获和评估数据,以便训练和测试,并管理部署的模型,防止漂移和偏差。”
此外,基于规则的AI可以通过智能策略控制和预定义配置帮助自动化资源优化和遵从。Su指出:“通过从日常运营中收集的数据,基于机器学习的人工智能可以进一步增强数据中心运营的其他方面,这些方面以前需要深入的领域专业知识。”他说:“例如,数据中心的安全可以通过自我学习的威胁检测和监控算法来加强。”“通过将所需资源引导到正确的方向,可以优化负载平衡、电力和冷却分配功能。”
人工智能还可以简化数据管理。卡瓦诺说:“企业越来越多地发现自己被与关键利益相关者有关的大量数据所包围。”“使用人工智能,组织可以确保这些大量数据得到有效和准确的管理。”在人工智能的帮助下,团队可以比以往任何时候都更快、更准确地执行任务,比如数据质量分析或提取数据以进行预测。卡瓦诺说:“这对组织来说至关重要,因为他们需要最准确的数据来做出明智的决定。”
人工智能包
随着人工智能的成熟,现在出现的是一种软件驱动的方法,将不同的元素结合在一起,以最小的人为干预。例如,Howe指出,在一个典型的数据库系统中,需要进行大量的配置才能使操作有效地运行,例如索引表、跨服务器对数据进行分区、为某些类型的查询分配内存,以及调优优化器以“适应”您的计算平台和预期的工作负载。他解释说:“人工智能可以帮助我们从大量历史数据中学习规则和程序,这些数据涉及哪些时间表对哪些任务有效,而不是让我们试图弄清楚所有事情。”
有了人工智能,人类IT领导者和团队就可以自由地关注业务问题,而不必担心基础设施的细枝大落。Belliappa表示:“从人工智能的角度来看,我们使用的大多数模型都是自学习集成模型,它们结合了各种技术,并在从它们管理的工作量模式中学习时不断优化。
计划和部署
在人工智能开始发挥其管理魔力之前,IT和商业领袖需要习惯于将关键的管理职责移交给一款软件。Shah承认:“根据规模和内部知识库的不同,这可能相当困难。
最终,一个组织如何处理从人类到人工负载管理的转变取决于它的技术成熟度、运营规模和数据中心的动态性。卡瓦诺说:“缺乏有效利用数据的现代基础设施的孤立企业将会举步维艰。”另一方面,越来越多的人工智能供应商提供针对特定类型企业的工具,增加了几乎任何类型和规模的组织能够顺利过渡的可能性。他预测:“随着公司及其解决方案的成熟,配置和部署的便利性将继续提高。”
如果人工智能有致命弱点,那就是该技术对数据中心系统和实践中相对微妙的变化的反应。Howe解释道:“大多数AI技术都是关于寻找稳定模式,假设环境是固定的。“如果你以模型无法看到的方式改变了环境,它会很高兴地告诉你错误的答案。”在部署变更之前进行仔细的计划可以帮助减轻这种担忧。
即将到来的
虽然人工智能支持的数据中心工作负载管理已经被许多大型企业,特别是谷歌、亚马逊和微软等超大规模企业经常使用,但这项技术现在才开始渗透到较小的数据中心运营商。Belliappa认为,数据中心的管理者不久就会面临艰难的选择:继续依赖传统的数据中心管理技术和实践,还是“大量投资人工智能驱动的改造以保持可行性”。
从长远来看,随着技术的进步、成本的下降和采用者信心的增强,人工智能驱动的管理有望成为主流。“在未来4到6年,你将看到人工智能数据中心工作量管理技术作为一个标准选择,”Shah预测道。
“我认为这个趋势发展得很快,”Howe说。“长期以来,数据中心一直存在大量自动化,这些(人工智能)技术为利用提供商拥有的大量数据提供了更好的方式。”他预计,使用人工智能学习方法进行自动化工作量管理将“很快普及”。
Kavanaugh说,行业观察家越来越期望人工智能将在未来三四年内的某个时候开始主导数据中心管理,尽管大流行驱动的加速可能有助于推动这一时间表向前推进。“很快,数据中心将能够实现几乎所有操作的自动化,从网络安全到维护再到监控,”他预测道。“但是,随着数据量呈指数级增长,并且随着我们在企业中发现AI的新用途,我们的工作量及其管理将继续发展。”