Hi朋友,本期将围绕“用户分析”、“趋势研究”、“场景应用”、“建议诉求”四大方面来展现参与本次调研的10家厂商的分析结果。
用户分析
1.所有的厂商都认为,智能运维已不是“初生的婴儿”,而是陆续进入场景尝试、应用落地甚至复杂场景拓展的成熟性阶段。
2.80%的厂商认为,用户方开展智能运维体系建设的出发点更为主动,基本诉求集中在组织战略导向、解决传统运维短板、提升运维质效等方面。
3.从优先级排序来看,厂商认为客户都是优先从解决现有生产运维实际痛点问题出发,而非“跟风”开展智能运维体系建设。
4.从用户方的关注点来看,现阶段用户方选择衡量厂商的因素有很多,包括咨询规划能力、项目实施经验、数据治理能力、项目人员供给等方面。
从用户方选择厂商考虑因素的数据来分析,我们发现用户方选择厂商的因素主要有以下四个方面:
1)23%的厂商认为,要具有清晰可落地的智能运维体系建设咨询规划能力;
2)23%的厂商认为,要具有智能运维领域丰富的项目实施经验;
3)18%的厂商认为,要配备专业背景强、技术能力精深且供给充足的实施人员;
4)15%的厂商认为,要具有运维数据治理和运维数据管理能力。
以上调查数据一方面说明现阶段多数用户对智能运维体系的建设方向和应用需求较为模糊,需要厂商来协助“开个好头”并携手构建长久发展框架和清晰可描述的落地需求;另一方面也指出了各厂商可以提升自身实力、参与智能运维赛道竞争的四个分项领域。
从总体上来看,智能运维体系的建设需要前瞻性的方向和有效的需求设计来牵引。前瞻性的发展方向,聚焦在发展远景,避免未来走偏和“无谓”投资;有效的需求设计包括全面量化的指标体系、具体的痛点场景、拓展性的应用实践等,保证在方向推进的过程能有实际功能落地,让智能运维“看得见、摸得着”。
绝大多数用户选择厂商时并没有将项目实施经验作为第一优先级要素。由此反映出目前市场上缺乏具有丰富智能运维体系建设经验的厂商,项目经验难以构成竞争优势;用户方更看重体系建设的咨询规划能力。这表明,目前智能运维体系建设仍处于探索与应用阶段,行业内的多数用户方都明确的希望从智能运维顶层规划入手,搭建智能运维体系发展的整体框架,以咨询规划为指引有序开展体系建设,主要的目标任务是构建清晰可落地的智能运维体系。
趋势研究
1.从厂商的合作实践来看,用户方实践智能运维体系并没有跳出运维工作的“窠臼”,建设方向仍多集中在基础设施运维与应用系统维护等传统运维领域。
从数据中心的工作范畴来看,用户方实践智能运维体系建设的领域分布各有侧重,主要分布在以下方面:
1)基础设施运维领域;
2)应用维护领域;
3)数字化运营领域;
4)辅助分析与决策支持领域;
5)数据库、中间件领域;
6)网络管理领域。
其中,覆盖基础设施运维、应用维护、数据库/中间件运维以及网络运维管理的传统运维领域占比要明显高于覆盖数字化运营、辅助分析与决策支持等新兴的智能化运营领域。
这反映出目前绝大多数用户方主要还是在从事传统运维的工作,并通过智能运维来解决传统运维工作中存在的痛点问题。传统运维领域的建设运营时间较长、痛点问题多,用户方拥有较多的实践经验与数据积累,在开展智能运维体系建设时能快速找到需求方向和切入点,形成高效、可达、效果直观的落地解决方案。用户方在业务的分析与决策、数字化运营等领域虽有一部分涉足,但由于其需要更多的数据基础和技术储备、贴近业务的综合性场景等诸多因素,在实践过程中较大有诸多因素制约了用户方和厂商的落地实践。
从当前行业发展方向来看,数字化转型与数据价值释放已成为各行各业的统一共识。数据中心作为数字化发展和行业领域价值输出的前沿阵地,首要的基础就是运维的数字化转型。其中,数字化运营将是促进转型过程中运维价值输出的重要抓手,而数据的分析和决策支持则又是加速数据价值释放、推动运维行业蝶变发展的关键。无论是用户方还是厂商都已认识到这两方面的重要性,并已开始通过智能运维体系的相关项目建设来实践转型落地,提升运维数字化运营水平和辅助决策支持的能力,以更进一步彰显运维价值和智能运维优势。
2.厂商认为,在智能运维体系建设方面取得成功的用户,其成功特性趋同于成熟的运维基础、高质量的数据积累和明确的场景性需求驱动。
从调研数据发现,目前已成功实施智能运维体系项目建设的用户方大都具备以下三方面特征:
1)成熟的运维管理基础,如成熟且使用良好的CMDB、监控、自动化、流程体系等;
2)丰富且高质量的运维数据积累,如数据覆盖面较全,已开展运维数据治理等;
3)广泛的场景性驱动需求,如明确的消费需求,清晰的场景描述等。
对于技术平台完备性与人员配备充足性等方面,相对来说并不是其主要特征。
这说明用户方自身的运维管理基础和高质量的运维数据积累是实施智能运维的核心前提,同时用户方能够清晰、完备的对场景进行描述、设计也极其重要。部分用户方着手建设智能运维相关项目时,若缺乏相关的前提条件或者效果不佳,可以“由浅入深”、“抓早抓小”,先从基础性的CMDB、监控、自动化、流程体系等方面着手建设与改进完善,过程中有意识地积累高质量的运维数据,同时总结运维中的痛点场景,形成产品化的场景沉淀,有的放矢、夯实基础。
3.有成功就有不足。厂商认为,现阶段智能运维体系建设实践中,用户方在需求准确性、数据质量和思想意识方面普遍存在不足。
从调研数据来看,厂商认为现阶段智能运维体系建设中普遍存在的不足有以下几点:
1)需求提出不准确,导致智能运维场景建设与实际应用有偏差;
2)数据质量不高,导致智能运维实践效果不明显;
3)思想意识不一,导致智能运维建设方向不明确。
这三方面的不足合计占比超过70%;另有14%的厂商认为“数据积累不足,导致智能运维场景拓展有局限”也是普遍不足的一个方面。相较而言,平台体系不完善、人员配置不足并不是体系建设中所存在不足的关键性特征。
厂商认为,“需求不准确”是用户方存在的普遍不足之一,占比为25%且占比排名靠前;而结合前述成功建成智能运维体系的用户特征中,用户方提供“准确的需求”占比仅为25%且占比排名并不领先。这种对比矛盾,实际上更多的指向了用户方运维管理基础的成熟程度。一方面,提出准确的需求要建立在成熟的运维管理基础之上,是持续优化运维管理基础底座、发挥运维支撑作用的应用创新;另一方面,没有成熟的运维管理基础,自然就难以建立起标准化的运维活动机制和运维数据沉淀,更谈不上高质量的运维数据积累。
从上述分析来看,开展智能运维体系建设没有“灵丹妙药”,并不是所有的用户方一开始就适合建设智能运维,打好传统运维管理的基础才是迈向智能的必经之路。
4.厂商认为,为推进智能运维体系走向成熟阶段,应重点从数据管理能力和分析决策能力两个方面进行提升。
从调研数据分析,我们发现推进智能运维体系走向成熟所需要重点建设的领域中,有如下比例分布:
1)提升数据管理能力,例如运维数据全生命周期管理与应用等,占比最高,达到45%;
2)提升分析决策能力,例如基于运维数据分析的规则判断与行动指引等,占比44%,位居第二;
3)提升自动控制能力,例如自动化运维处置与故障恢复等,占比最低,为11%。
从上述数据来看,需要重点从数据管理能力和分析决策能力两方面进行提升,而自动控制能力则不是当前的重点提升方向。一方面说明,用户方在智能运维体系建设方面都已形成了普遍的共识,并聚焦在高质量的运维数据和准确的需求两个方向;另一方面也说明随着运维实践的深入,对于自动化方面的态度也逐渐由“激进”走向“稳健”。
从提升数据管理能力和提升分析决策能力两个方面做分项数据分析,我们发现:
·影响数据管理能力提升的主要因素如下:
1)IT基础数据不全、数据质量不高,导致智能运维分析不准确;
2)数据来源广泛、标准差异大,导致数据分析与数据应用的全面覆盖度不够;
3)缺乏完备的数据指标体系和指标定义,导致数据利用率和数据价值贡献不高;
4)数据治理、数据管理、数据应用是促进智能运维发展的共识。
这四项原因中,数据不全、数据差异大、缺乏完备的指标体系各占25%,数据治理技术共识占比19%。数据主题开发能力则占比较低,仅为6%。
从上述数据分析来看,要开展智能运维体系建设,需要从多个方面重点提升数据管理能力,包括提升数据覆盖度、数据质量、建立统一的异构数据处理标准、构建完备的运维数据指标体系、开展运维数据体系治理等。否则,将会面临运维分析不准确、分析与应用不全面、数据利用率低、价值密度不高等典型问题。
·影响分析决策能力提升的主要因素如下:
1)运维知识沉淀不足、运维场景总结不够,分析决策能力较弱,无法真正做到赋能业务、赋能运维;占比34%;
2)AIOPS算法的精准度和稳定性能直接决定智能运维的效果,现有算法的决策需要大量的人工辅助;占比33%;
3)系统架构复杂、运维场景多变,各类疑难杂症都需要借助智能运维的辅助分析与决策能力提升运维精准度;占比25%;
4)运维工具的易用性方面占比仅为8%,不是主要原因。
产生这些原因的主要根源还是来源于三个方面现状:一是传统运维管理基础不牢;二是“分析决策”领域不够深入;三是系统变得越来越复杂。其中,传统运维基础与系统复杂度越来越高的现状是用户方的切身痛点,是客户比较容易描述的需求,也是可以快速开展运维建设的方向。
但仅从保障安全的角度出发开展智能运维体系建设,充其量只是做了运维的“分内事”。要想让大家对智能运维有全新的认识,还需要对运维活动进行场景关联、业务赋能,将智能运维的成果转化为业务价值。这需要深度提升分析决策能力和算法应用能力。
只有用户方和厂商协同深耕“分析决策”领域,构建全面量化的运维指标体系、打造丰富全面的应用场景,才能突破智能运维体系建设价值释放不足的瓶颈,解决期望与实际不匹配的矛盾,为运维赋能业务发展提供新思路。这将会是未来智能运维发展的一个趋势。
5.未来智能运维的发展趋势方面,厂商预测会有多模态场景、智能化算法应用、智能分析下的自动化联动、持续性数据治理等四个主要方向。
在智能运维分项领域的发展趋势方面,厂商认为未来1-2年在数据治理、平台建设、算法应用、新技术发展、智能运维配套运营管理等方面将存在如下四个方面技术趋势:
1)智能运维场景将由传统的单模态逐渐走向多模态。
一方面,需求使然,越来越复杂的系统架构导致单模态的运维场景日渐减少;另一方面,企业要实现AIOps价值,必须使用多元、多维数据以及体系化的工具来重构组合新的场景应用,才能完成既定任务。例如,单指标异常检测场景,如果只是自动发现指标中的各种异常,并不能最终实现运维价值。真正的价值链路则应是单指标异常检测算法找到问题,根因分析算法定位问题,借助自动化工具解决问题,这样才能形成一条完整的发现问题、定位问题、解决问题的“AIOps价值链”。
2)智能运维的知识应用将加入更多的“智慧因子”。
从当前的实际应用情况来看,用户方基于运维大数据底座,运用异常检测、根因定位、影响分析、容量规划预测等智能化算法,实现了很多智能化运维场景落地,并在传统运维工作领域取得了一定的实效。但这些场景目前还是基于算法与算力的,预设规则多于认知积累,其“聪明但不智慧,是缺少知识的”,这就要求赋予智能运维机器人知识表达和理解、逻辑推理、自主学习等能力,使计算机能够拥有类似人类的智慧,拥有运维领域专家的知识及运用能力。
3)智能分析结果下的自动化联动将成为可被接受的运维方式。
传统的运维监控工具在同时面对数据总量大、数据类型多和实时性处理要求时往往无能为力。同时,基于工具分析的准确性与操作后果的严重性等因素考虑,一般都不会采取事件联动自动化的方式提升故障处置效率。而带有“智慧”的AIOps体系逐渐建设推进后,具备了越来越精确的可能,其通过快速处理所有数据、执行深度数据分析和自动化任务等方式,帮助运维人员开展系统监控管理,同时可以依据学习经验形成自动化的应急处置动作而快速实现系统恢复。
4)持续性运维数据治理会成为广泛的共识。
以始为终,从智能运维应用场景建设角度对数据治理提供更多的指导与要求;对动态变化的数据,从数据安全、标准与质量各个角度开展循环式、持续性的动态治理,从而做到对后续智能运维的支撑。
场景应用
1.厂商认为,在智能运维场景落地应用方面各行业发展较不均衡,但趋向化的关注并聚焦在监控告警、分析检测、问题定位等运维活动领域。
从调研数据来看,目前在推进智能运维场景落地实践方面,各行业发展的步伐不一。主要集中在银行、证券、保险、能源、运营商、政府机构等行业。
整体占比分布中,银行、证券、保险、能源、运营商、政府机构等行业领域的合计占比达到83%,远高于类似于制造商、交通运输等行业领域。另外,互联网行业更多的是以自研为主,因此与外部厂商开展智能运维场景落地的合作不多,在合作的场景分布占比方面仅占3%。
从场景分布数据来看,分布占比较高的大都集中是在日常运维投入大、业务稳定性要求高、监管要求严、故障容忍度低、面向广泛的外部客户的行业,这些行业的运维体系建设相对比较成熟,有较多的数据积累,对安全性、稳定性、时效性的需求迫切,具备开展智能运维场景实践的“肥沃土壤”。
从调研数据来看,实践智能运维场景落地的各个行业运维特征差异较为明显,但较为突出的特征则主要表现在稳定性要求高、重监管、可靠性要求高、运维体系完备等方面。
其中,稳定性要求高占比居首,达到19%;其次是重监管和运维体系完备,各为11%;另外可靠性要求高也占比较高,达到9%;合计四项特征占比达到50%,占全部特征的半数。且无论是监管要求,还是系统可靠性,抑或是运维体系的完备性等,其最终也都归根对系统的稳定性要求。
上述数据分布表明,系统稳定性是运维工作的重要内容,也是智能运维体系建设的基础和落地着力点。只有在稳定、安全、可靠的系统运行,才能为运维质效提高、成本节约创造条件,才能有更多的精力开展智能运维场景建设。
从调研数据来看,各行业关注或实践的智能运维场景分布较广,但较为明显的趋向聚焦在异常检测、根因定位、问题预警、动态基线阈值等方面。
其中,异常检测场景实践占比最高,达到19%;其次是多层级根因定位场景,占比达18%;问题预警排名第三,占比达11%。三者合计占比达到48%,接近各行业总实践场景数量的一半。
1)虽然各行各业的运维特征性差异较为明显,但其本质与根本工作目标仍然是保障系统的稳定性,因此在实践具体智能运维场景时不可避免的趋向化聚焦在跟稳定性强相关的异常检测、根因定位、问题告警预警等运维活动领域。同时,也说明在日趋复杂的运维背景下,如何从海量的告警信息中快速定位故障及找到问题的根源,并迅速协调运维团队实施故障协同处置是当前智能运维场景应用关注的重点,也是目前各行业面临的痛点。
2)详细的行业分类特征及场景应用方向见附录《行业领域分类特点及智能运维场景应用分布表》。
2.厂商认为,在智能运维场景落地与应用推广过程中常遇到的问题较多,但集中表现在运维管理基础差、预期不一致、认知不统一、需求不准确等四个方面。
从数据分析来看,智能运维场景落地与应用推广过程中常碰到的问题存在如下特点:
1)所碰到的问题较为分散,涵盖了数据质量、客户预期、运维体系、观念认知等13个方面。
2)在各问题中,运维数据方面的问题较为突出,占比达到25%。
3)当前阶段智能运维的显性价值低,难满足客户的预期等问题比较普遍。
4)各行业开展智能运维建设的体系性不完整,缺乏规范指引与参照经验。
5)无论是运维团队本身还是其他团队用户,都存在对智能运维认知上的不统一,没有充分认识到智能运维发展的重要性。
通过对上述碰到的问题进行重新归类并映射后,相关映射关系及问题归类分布如下:
由于行业的差异性特征存在,导致在推进智能运维发展与实践场景应用落地等方面的进度阶段也各不相同,因此在场景落地与应用推广过程中碰到的问题也各不一样。虽然从具体问题上来看较为分散,但从问题内在本质浓缩映射来看,上述所碰到的各类问题集中归结为运维管理基础差、预期不一致、认知不统一、需求不准确等四个方面。且运维管理基础差占比达到半数,是整个智能运维场景落地与应用推广过程中所碰到的主要问题;而预期不一致、认知不统一、需求不准确等方面的问题也或多或少的是由于运维管理基础差所造成的,导致整个落地与推广过程中各方难形成合力。而从解决问题的角度来看,优先需要解决运维管理基础差这个根本性问题;无论如何推进智能运维,都不能脱离包括工具、数据、流程、指标、能力沉淀等在内的运维管理“地基”。
建议诉求
1.厂商判定智能运维体系建成的标准主要集中在三个方面,包括:实现运维层面的业务价值、提升运维管理能效并解决实际问题和实现自动化决策分析,这三个观点成“三分天下”之势。
2.厂商判断,未来的智能运维体系建设,除了在巩固运维管理基础方面继续开展外,可以在AI算法优化、运维模式创新等方面进行聚焦。
3.建设智能运维体系需要用户方和厂商间持续合作,共同发展,双方要在理念意识、基础构建、协同沟通、目标期望等方面达成一致。用户方也应该从运维基础着手,加大在智能运维方面的投入。
附录《行业领域分类特点及智能运维场景应用分布表》
· “年度调研-厂商调研结果”编委介绍 ·
· 精彩预告 ·
下期将分享中国建设银行的实践案例之“善建者行 智运者赢——智能运维助力中国建设银行运维数字化转型”,详情敬请关注“双态IT联盟BOA”公众号!