Hi 朋友,为了更好了解智能运维的应用推广情况,编制组特别邀请了几家用户单位来分享各自的应用案例。下面让我们来看一看本期内容之“国泰君安-数据+算法双擎驱动的数智化运维服务体系建设”。

 

建设背景

 

国泰君安证券股份有限公司(以下简称“国泰君安”)致力于成为本土全面领先、具有国际竞争力的综合金融服务商。2018年公司正式启动数字化国泰君安战略,前瞻布局大数据、践行AI in ALL的人工智能应用策略,重塑O2O客户服务体系,推动重点业务数字化运营,构建数据驱动的智能风控体系,形成高效协同的全连接平台,实现高效智能运维转型。2021年,公司在业内首次清晰地、成体系地提出“SMART”数字化转型愿景,绘制了发展蓝图,提出了全面数字化转型的核心目标、保障机制和行动计划,同步发布了新一代国产化低延时分布式交易体系等重大金融科技成果,成为行业数字化转型的引领者。

 

在数字化新常态下,运维面临的挑战也日益增大。在业务创新方面,要求数据中心在保障信息系统稳健运行的同时,快速响应业务需求,提供按需而变的运维保障服务;在技术演进方面,云计算、分布式、信创等新技术的大量运用,使得系统架构发生巨大改变,运维对象从几百向几万、几十万的数量级演进,而微服务等架构的应用,更加剧了海量运维对象之间的关联性和复杂性。

 

为配合公司战略部署,迎接数字化转型挑战,数据中心自2019年开始建设新一代数智化运维服务平台,运用金融科技打造与未来业务发展相匹配的精益运维服务体系。平台按照自主可控、创新赋能的要求,以数据为驱动,以场景需求为牵引,构建对运维系统和对象的数字洞察和智能决策能力,形成高效的运维执行驱动力,最终推动运维流程的不断演进、运维保障能力的持续增强、运维模式的数字化转型。

 

建设方案

 

PART 01 战略目标

 

项目将建设一个面向运维开发团队、能够感知运维对象实时运行状态、汇聚海量运维数据提供实时数据处理能力、具备成熟自动化能力的数智化运维服务平台,并以机器学习算法为核心提供强大的数据分析和智能决策能力,赋能运维团队价值提升,实现从被动运维到主动运维、从分工运维到融合服务、从流程事件驱动向数据算法驱动、从基础服务到价值创造的转变,支持构建高效敏捷的运维服务体系,助力数据中心实现运维数字化转型,保障生产系统安全稳健运行。

 

本项目核心目标包含数据与算法驱动以及高效运维处置能力两部分。在数据与算法驱动方面,一是建立横纵结合、全面深入的数据采集与监控指标体系,实现对数据中心运维对象的360°全方位监控,获得系统运行状态实时感知能力;二是落地IT数据资产,利用平台强大的计算能力与扩展能力,实现数据的采集、传输、存储、治理、消费的闭环;三是变现运维数据资产,将机器学习算法和数据实时分析能力融入到IT运维工作场景中,为日常运维提供异常感知、故障定位辅助决策等关键能力。在高效运维处置能力方面,利用自动化和RPA技术,将可量化、可标准化、可程序化的工作由机器辅助人工处理,形成高效的执行力。

 

平台框架图如下:

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

PART 02 主要内容

 

为了实现“质量可靠、效率提升”的运维核心目标,数智化运维服务平台需要具备更加实时的感知能力和智能的洞察能力,以更快发现系统运行风险;需要具备更加高效的执行与调度能力,以更快进行应急响应与服务交付。

 

建设内容具体来说包含以下几方面:

 

1)全面梳理指标资产,建立一套横纵结合、多层次、多维度的运维指标体系。汇总分散在各监控系统的指标数据,形成集管理体系、评价体系、标准体系、工具体系于一体的、具有组织特色的运维指标体系,更准确地量化展现IT业务价值,为数据分析、智能算法等提供基础支撑。

 

2)建设运维数据湖,实现对应用日志、监控指标等海量运维数据的采集、解析、存储、管理、应用的一站式全生命周期管理。运维数据湖建设强调整合、治理、共享,通过运维数据的汇集、规范、连接、消费,形成完整的运维数据资产管理体系。首先,数据湖采用分布式、高可用架构,实现对运维数据的高效实时采集和统一管理,打破各个孤立运维工具中的数据孤岛;其次,数据湖基于大吞吐量的流式数据处理能力,封装各类计算逻辑,使得下游消费方可以按照场景需求自助分析各类数据,快速敏捷地创建面向特定场景的数据应用,实现对数据的全面综合分析;再次,数据湖监控运维数据全生命周期各环节的数据质量,将数据治理融合到大数据平台的各环节中,降低治理成本。

 

3)以机器学习算法为核心提供强大的异常发现能力和分析决策能力。在故障发现方面,一是通过挖掘指标和日志历史数据中的隐含模式,识别业务指标趋势或日志模式的异常变化,及早发现风险,弥补现有业务监控中难以通过规则事先设置监控的问题;二是创新引入基于模糊测度和Choquet积分的非线性回归模型,实现关键业务系统核心指标的非线性影响权重的量化分析,建立形成可观测、可度量的运维分析模型,并实时计算系统健康度等综合指标,在此基础上实现故障检测和提前预警。在故障定位方面,一是运用多维异常定位算法,在业务系统发生故障的异常时间段从大量交易明细的不同属性维度组合中快速完成统计分析,确定疑似故障根因维度组合。二是运用基于知识图谱的根因定位算法,推理得到可疑程度最高的根因节点和故障传播路径,帮助运维人员从告警风暴和复杂链路中快速定位故障根因。

 

4)在数字化转型的背景下,搭建敏捷高效的全新工作平台-数字员工。数字员工基于RPA、人工智能、机器学习等金融科技,实现自动化处理大量重复性、流程性的工作任务。通过与传统的自动化运维相结合,让员工从疲于应对的繁琐、低价值劳动中释放,提升日常运维操作及故障处置的效率,降低人工操作风险,进而从事更高价值、具有创造力的工作,提高企业竞争力。

 

PART 03 技术创新点

 

1)以应用为中心,建立横纵结合、多层次、多维度的运维指标体系

 

平台遵循系统性、全面性、结构性、差异性、重要性五大原则,针对各个业务领域、场景或过程的特点,结合组织战略目标、指标体系需求、行业最佳实践与专业知识、数据资源状况等,采用自上而下(从业务需求、模型等出发)与自下而上(从现有业务系统能提供的数据指标出发)相结合的方法,明确指标之间的层级关系、因果关系,明确各指标、维度的定义和计量方式,确定各指标的基准和阈值、统计时间周期等,形成一套框架合理、逻辑清晰、指标定义准确、维度丰富、评价标准科学的指标体系。

 

2)基于实时流数据处理技术,构建大吞吐量的数据分析能力,提供便捷的数据开发能力

 

a)高效数据处理机制:基于Flink的实时数据处理平台吞吐效率比原有系统提高3-5倍,能够实现10T数据级的准实时的数据采集、清洗和计算。

 

b)低代码和统一数据服务:通过低代码、可视化配置的方式完成数据开发、运维和管理,实现一站式、图形化工作流,降低使用及维护成本。下游智能运维算法可以按需消费,快速敏捷地创建面向特定场景的数据应用,充分释放数据价值。

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

3) 利用机器学习算法,挖掘指标和日志历史数据中的隐含模式,并通过算法模型实现实时检测,及时对数据异常进行告警

 

a)单指标异常检测:通过对业务性能黄金指标数据,如交易量、响应时间、错误数等具备时间间隔固定、有时序规律或周期性特点,可反映业务系统健康度的指标数据,进行异常检测,识别业务指标趋势的反常变化,及早发现问题风险,缩短故障发现与恢复时间。

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

b)日志异常检测:基于日志聚类算法,通过识别日志中的变量,对日志做实时聚类形成日志模式,并与正常时段日志模式对比,出现异常时发出告警来辅助运维人员快速定位异常,弥补现有业务监控中难以通过规则事先设置监控的问题。实际运行中异常检测准确率达80%以上。

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

4) 基于数字孪生方法论和多层次指标体系,构建系统非线性影响权重的量化模型,获得系统全维观测、健康度实时分析和故障预警能力

创新引入基于模糊测度和Choquet积分的非线性回归模型,建立度量核心系统内部各种关键指标对运行状态的非线性影响权重的量化分析方法,构建多层次指标体系,准确、及时地把握系统运行动态变化的高维复杂状态空间,为系统健康度评估、预测/诊断系统故障提供系统整体层面的量化模型。

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

5) 引入和实现多种智能化故障定位算法,辅助运维管理员在故障发生时快速定位可能的故障发生点,缩短排障及系统恢复时间

 

a)基于异常程度衡量方法和蒙特卡洛树搜索的多重剪枝等关键技术,在业务系统发生故障的异常时间段从大量交易明细的不同属性维度组合中,迅速完成统计分析,确定候选根因集,为一线运维管理员完成故障诊断提供有力的的辅助决策手段。故障定位准确率达到80%以上。

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

b)采用高效的基于微服务依赖关系的算法进行根因定位,动态地构建服务调用图,沿着异常服务调用遍历图来分析可能的异常传播链,并采用高效的剪枝策略来消除异常传播链分析中不相关的服务调用,从而提升根因定位准确性及效率。

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

6)运用RPA+AI技术实现业务操作、运维操作的自动化、标准化,减少人工操作风险,大幅提升工作效能

 

融合多种技术,扩展能力边界,构建智能化、自动化的流程作业平台。融合IDP(智能文档处理)、OCR(图像识别)、ASR(自动语音识别技术)、ML(机器学习)、流程与执行的智能分析、低代码等技术的智能自动化平台,推动AI与RPA相结合,充当RPA的大脑,扩展RPA能力边界,实现智能人机协同与组织的高效能管理, 使得其功能更加完善,应用场景更加广泛。比如通过RPA与图像识别、生物特征识别(人脸、语音)等AI技术的结合,实现开户流程的智能审核,将通过智能审核后的流程再提交给审核人员进行人工复核,审核效率将得到大幅度提升,显著降低人为操作风险。

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

建设成效

 

平台上线以来,实现了对公司核心业务系统监、管、控的全面覆盖,提升了以数据驱动为导向的自动化、智能化运维服务能力,具体包含以下四方面:

 

感知力:运维指标体系量化展示系统运行状态及业务价值

 

指标体系涵盖基础环境、存储、网络、容器云、服务器硬件、操作系统、数据库、中间件九大主题域,共计600余个标准监控项,涵盖指标标准化定义、分类和属性划分等。指标体系基于业务和运维管理的顶层规划,将各个业务系统的孤立数据进行分类、分层管理,从而通过更系统、更有层次的方式来展示业务场景的指标数据,使之成为以数据为驱动、面向业务运维监控与管理的落地抓手,准确量化展现系统运行状态及业务价值,在改善运维管理方式的同时提升整体的 IT 运营效率,并为数据分析、智能运维场景等提供便利的数据基础。

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

决策力:智能算法助力故障及时发现、准确定位

 

经过算法的持续优化及推广运营,智能算法为生产异常的“及时发现、准确定位、快速处置”提供了有力支持。指标异常检测算法已在生产环境实时监控20余个重要信息系统的3000多项指标,支持异常运行指标的分钟级检测。日志异常检测算法应用于近50种日志,每日分析量2T以上,月均有效告警60余项,告警准确率达80%以上。多维异常定位算法分析准确率达90%以上,推动前端优化减少报错达40%以上。算法已成为运维人员在故障发现和诊断时不可或缺的“智能小助手”。

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

执行力:数字员工RPA实现提质增效

 

数字员工RPA以多元化的业务场景为依托,减少员工的重复性、标准化劳动,提高工作效能,提升员工数字化获得感,进一步推动集团运营的降本增效。已投产上线300多个数字员工RPA应用场景,覆盖20多个业务单元,每日节约30多个人效。

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

数据底座:运维数据服务提供坚实基础

 

数据底座是以上三种能力的基础。我们通过对数据进行统一采集,存储,管理,打破数据孤岛,实现统一的数据视图,拓展数据应用的深度和空间,充分发挥数据价值。具体来说:一是实现多源数据集成与算子化、可编排的数据实时计算,提供各类算子30余个,日均分析日志数据15T以上,覆盖100+重点系统。二是纳管多样化运维数据,包含指标、日志、调用链、告警、CMDB、统一架构共计6大类数据资产。三是提供丰富的数据服务,目前已支持智能运维、个性化交易、资产托管、RPA、容量系统等多类数据分析场景。

 

收益总结

 

随着金融与科技深度融合,作为承载金融服务的“基石”和“心脏”,数据中心必须直面架构复杂化、数据海量化、迭代快速化等带来的挑战。本项目的创新和实践对运维领域的发展,对我市其他国资系统企业特别是证券等金融行业运维工作开展都具有重要的引领示范作用,为金融行业数据中心转型发展探索了方向,有利于实现从被动运维到主动运维、从分工运维到融合服务、从流程及事件驱动向由数据和算法驱动、从基础服务到价值创造的转型。

 

第一,构建了一套统一的、具有行业参考意义的运维指标体系,实现对数据中心运维对象全生命周期的实时感知。第二,建立了一套完整的运维大数据分析系统,汇集海量运维数据并提供便捷的数据实时分析及开发能力,打通了数据交付的流程管道,有效提升了数据交付的效率,为算法服务打下了坚实的基础。第三,基于机器学习算法打造了一套具备实时洞察及辅助决策能力的智能运维系统,为故障及时感知及根因定位提供有力支撑。第四,建设了一套自动化作业系统和机器人流程系统,将员工从繁琐、低价值劳动中释放,提升日常运维操作及故障处置的效率,同时减少人工操作的复杂性与不确定性,进一步提升数据中心的安全生产和风险防范水平。

 

平台融合大数据分析、人工智能、数字孪生方法论、RPA技术等多元要素,构建完整的技术体系,实现了模型与数据双驱动的运用模式,拓展了运维数据应用的场景和想象空间,支撑运维服务进一步向具有感知能力、观测能力、决策能力等高级用户体验的智能化应用转变,为证券行业实现类似平台架构设计树立了行业标杆,提供了良好的参考蓝本。后续平台建设将持续为公司各类核心系统的运行安全保驾护航,有效提升公司逾三千万用户的使用体验,保障公司业务运营和用户数的进一步扩张,为公司品牌增值创造价值。

 

“智能运维应用推广情况-国泰君安”编委介绍

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

连载三 |《中国智能运维实践年度报告(2022-2023)》之智能运维应用推广情况-国泰君安证券

 

特别鸣谢

 

国泰君安证券股份有限公司  俞   枫

国泰君安证券股份有限公司  毛梦非

国泰君安证券股份有限公司  姜婷婷

国泰君安证券股份有限公司  王   厦

 

精彩预告

 

下期将分享新华三的实践案例之“运维大数据平台的建设与实践探索”,详情敬请关注“双态IT论坛BOA”公众号!