【必示说】第二期:能力构建与场景实现双轮驱动,逐步完善智能运维体系
发布时间:2023-01-09 17:04:58
随着数字化转型的加速推进,银行、保险、券商、运营商等行业的智能运维建设方兴未艾,制造、汽车、电力、交通、物流、环保等行业在国家相关政策推动下也逐渐显露头角。抛开各行业底部条件的不同,企业在智能运维能力和场景建设的路径选择往往有些疑惑,【必示说】第二期,我们聊一聊《能力构建与场景实现双轮驱动,逐步完善智能运维体系》。
智能运维平台本质上是AI技术与运维业务相结合的产物。从AI技术角度,知识、数据、算法、算力四者必不可少。从智能运维业务角度,国家标准《信息技术服务智能运维第1部分:通用要求》中也提出“以场景实现为中心、以能力域构建为支撑”。在企业建设智能运维过程中,能力构建作为智能运维系统上层建筑,是需要全盘思考的。
能力构建:智能运维建设的顶层设计
运维智能化作为AI技术与传统运维的前沿交叉领域,处于技术发展落地的初期阶段,行业用户在各类细分场景中创新实践,科研学术成果不断涌现,但是在国内外尚未形成统一的通用标准和技术规范。在基础领域、技术体系、规模成本和研发模式等方面存在诸多挑战,亟需攻关突破。

① 平台:打造智能运维平台、聚焦共性AI能力和数据服务,避免低效率重复研发、烟囱式建设,最终实现智能化研发和应用的常态化能力。
② 算法:基于AI能力开发框架,面向运维全流程,梳理和构建智能运维算子体系,并进行核心算法突破的能力。
③ 应用:围绕运维“质量、效率、成本、安全”四个目标打造标杆应用场景,将AI技术融入运维流程,重点实现降本、增效、提质。
④ 产业:在自我探索和提升的基础上,进一步联合产业一同前进、统一认识、群策群力、带动产业整体提升。


线:将多个点串起来,综合多种外延能力形成场景化的应用,逐步串入生产运维流程,提升自动化水平。
面:将多条线聚集成面构建平台,沉淀各类业务流程中的共性AI能力和统一数据,利用AI技术来重构运维流程,提升端对端的用户的感知。
体:通过面的构建和提升,最终形成向上和向下引领产业业务和技术的共进,构建完整的智能运维的生态化体系。
场景实现:智能运维建设的核心抓手
在企业建设智能运维过程中,场景实现是智能运维系统建设的中心,同时也是”通过AI技术解决运维问题“的抓手。必示科技以“场景实现”为中心,为银行、券商、保险、电信、制造等行业企业提供智能风险感知平台、智能事件管理平台、智能故障分析平台、智能运维数据平台、运维专属AI算法平台和智能运维演练中心产品矩阵,从事前预测和防范、事中快速分析定位和处理、事后经验知识沉淀,并以此为循环,在防范和处理运维问题的同时不断提升智能运维平台能力,最终降低MTTR,延长MTBF。


第一阶段:提升和完善关键业务监控能力,并驱动数据汇总和治理。
第二阶段:接入不同告警源对告警进行统一管理,并基于智能告警分析能力对告警进行精细化管理。此时平台已经具有了对告警事件进行过滤、屏蔽、压缩、丰富、定级、处置、跟踪的能力,同时实现告警事件全生命周期管控。
第三阶段:利用运维知识图谱技术对配置、告警、指标、日志等数据进行汇总,形成初步的跨领域排障分析能力。
第四阶段:利用排障流程引擎编排故障处理过程,实现关键故障场景的自动诊断和推荐分析。此时平台已经具有了成熟的智能故障分析的能力,并通过专家排障知识和决策知识沉淀为排障模型,节省排障效率。
第五阶段:由被动运维转向主动运营,利用知识图谱技术整合多来源数据,基于人机协同决策引擎初步构建风险感知能力,而对于风险规避性需求更强烈的行业则可以直接从第二阶段或第三阶段即可开始风险感知能力建设。
第六阶段:针对关键风险感知业务场景,强化风险感知能力,比如变更、容量、基础资源等风险分析,此时系统已经形成风险管理流程闭环。
第七阶段:构建仿真平台,通过流量生成等技术模拟故障情况,构建稳态基线。
第八阶段:利用混沌工程做全面的风险、故障攻防演练,完善风险感知、智能监控、和排障分析等工具,提升智能化水平,最终构建出高度智能的运维体系。
当然,上述建设路径并不是绝对的,根据企业本底情况、首要解决问题、建设阶段以及数据质量的不同,这八个阶段是可以拆分、组合甚至跳跃的。
根据必示科技服务过60余家数字化转型企业的经验来看,大约20%的组件故障导致了80%的业务故障,建议企业的在智能运维系统建设时,根据要事优先的原则,以场景驱动,先解决首要问题,再循序渐进建设智能运维系统。另外,由于数据治理与AIOps落地是互相依赖、互相促进的,为保证数据治理效果和智能运维效果实现得更高效,建议数据治理与AIOps齐头并进。详见清华大学裴丹教授的文章《AIOps落地的15条原则》