GOPS 2020|擎创CEO杨辰:智能运维体系建设的“术”与“道”

擎创科技
2021-01-22 12:04 来自江苏省

近日,由云计算开源产业联盟指导、高效运维社区和开放运维联盟联合主办的2020第十五届GOPS全球运维大会在上海如期举行。凭借智能运维产品的创新力及成熟度,擎创科技“夏洛克AIOps智慧运营平台”荣获GOPS“2020AIOps领域年度明星产品”。

在本次大会上,擎创科技CEO杨辰受邀发表了《智能运维体系建设的“术”与“道”》的演讲,并就智能运维建设体系和场景化建设等话题,同与会嘉宾进行了分享,以下为演讲(干货)全文:

01 业务数字化加剧造成的运维之殇

当前,随着企业数字业务的快速发展和业务量的攀升,企业信息系统架构的升级变迁,以及企业多套业务系统的在线运营,各类监控组件和应用系统间的关系错综复杂,系统运维的难度也急剧增加,且面临着以下巨大挑战:

发现问题难:企业在经年累月中布局了诸多监控工具,但是监控手段阈值的设定单一,且一般都是静态阈值,而指标和告警的异常却是多样化的,这样就会造成大量的误报漏报现象。此外,目前绝大多数的监控工具,缺乏趋势预测能力,使得运维局面非常被动,导致发现问题十分困难。

根因定位难:发现问题时一般都是对问题进行定性分析,可能了解到某一告警对应的指标波动是值得关注的,但是并不能因此确定造成这种现象具体根因。而且目前的监控工具,大多缺乏综合根因定界及定位分析的手段,即便对监控进行了集中管理,也难以通过单纯的几种指标进行根因定位。

数据治理难:当数字化建设进行到一定程度的时候,被管理对象的数据量相应的也是水涨船高,数据数量大、类别多且非常分散,很难通过某一指标体系来衡量系统的健康度,也没有一个统一的视角去判断数据质量的好坏优劣。

运营分析难:现有的大多数基础监控工具,多数都是从自己的管理阈例如系统管理、网络管理出发看待问题,缺乏端到端的分析能力,没办法以业务视角从综合运营分析的角度,去看待多样化指标对系统的影响。

02 如何分层构建智能运维体系

根据擎创在智能运维领域多年落地的经验,我们把智能运维体系分为三个层面:数据治理层、运维应用层和运营决策层。而运维智能化场景的成效,与运维数据的质量密切相关,也就是说运维数据的质量越高,智能化的成效就会越高。那么怎样提升数据质量,以及怎样在数据治理的过程中提升数据处理的效率?

最底层的是数据治理层,对应的是擎创的数字运维中台,它相当于一种公共服务(平台)。在建设智能运维的过程中,关键在于公共服务(平台)的性能优劣,我们可以通过运维大数据处理、流式处理和算法处理,提升数据的质量和规范、流式处理的效率和框架适配性、数据处理的智能化水平,从而为上层的应用层打下坚实的基础。

在运维应用层,擎创提供的有告警辨析中心、指标解析中心、日志精析中心和日智速析专家四种主流的运维应用,涵盖运维中最常见的告警、指标和日志三种数据,能够帮助用户优化事件管理效果和发现事件中间的相互关系、对指标和日志进行实时的异常检测、分析交易异常并进行综合根因定位等。

在运营决策层,我们不仅要考虑到运维本身,还应考虑到业务,从业务视角看待整个运维工作。智能运维主要是帮助用户打通主流运维数据和业务数据之间的关系,例如对业务指标和基础架构指标进行联动ROI分析。擎创提供的运营决策中心,能够帮助用户在全面的运营视图、针对业务应用的系统画像中做相关性的数据洞察。

当然,整个的智能运维体系建设还需要对外服务,需要与既有的运维管理生态有效的结合。良好的智能运维建设体系,还需要考虑与异构第三方应用进行关联。

这些产品汇集成擎创的夏洛克AIOps智慧运维平台,夏洛克AIOps平台针对的是海量的运维数据,就像无数的线索一样,我们希望它像夏洛克福尔摩斯一样见微知著,洞察这些数据对我们的价值,提升运维的效率和水平。

03 循序渐进地建设智能运维场景化

在智能运维建设中,一般应遵循三个原则,首先是从自身数据条件和运维基础出发,其次夯实运维数据处理能力,最后是循序渐进地进行场景化建设,逐步完成运维的智能化升级。

基于这三项基本原则,可以按照六步走路线进行智能运维建设,前三步侧重在实时性数据处理能力的提升,后三步侧重在事后分析和处理能力的提升:①集中监控智能化改造、②指标监控智能化改造、③日志实时智能异常检测弥补监控手段不足、④智能故障综合排查—根因分析和定位、⑤智能知识管理—知识图谱、⑥故障自愈。

智能运维的本质是提升运维数据的洞察和处理能力,实际上在建设中,无论是大规模的成熟企业还是中小规模企业,都可以沿着这条路径逐步完成运维数字化和智能化的进程。

04 智能运维AIOps的价值和收益

更迅捷地帮助客户发现异常:对实时告警进行及时处理,通过算法推荐合适的等级,因为大量的告警噪声,会使得一线的运维人员在处理事件时效率非常低,我们可以通过算法,把真正应该关心的告警前置,帮助客户发现异常。

更有效地诊断问题根因:帮助用户进行相关的根因定位,特别是基于业务的波动,逐层下钻并查看跟业务相关的波普因素,找到关键因素之后再查看与之相关的基础架构的指标等数据。除了波动分析之外,还可以查看每个指标在波动变化中异常点的数量的发展趋势,还可以结合CMDB的拓扑数据等方式进行根因定位。

更业务导向地进行运营分析和决策:智能运维体系建设好之后,可以对其进行健康评估,对于业务部门来说是非常有价值的,可以帮助其了解运维事务以及在这之中产生的运营价值。

更持续有力地提升数据质量:在智能运维建设的过程中,运维数据的治理是相伴而生的,智能运维可以帮助用户规范化运维数据的质量,便于之后运维数据的调用分析处理等。

热点新闻