文 / 阳光保险集团科技中心技术管理部总经理助理 王卓
阳光保险集团科技中心技术管理部 李冰
随着科技进步,众多新的技术、平台、系统逐渐投入使用,各类系统向智能化、微服务化和高可用化转型,系统服务能力及运行效率显著提升,但同时也带来了新的挑战。面对越来越多的平台、子系统、服务器、数据库等设施,运维人员需要在系统异常时能快速定位、有效诊断问题及原因。目前常见的监控工具种类繁多且各自为政,存在严重的数据孤岛现象,无法将监控数据关联起来,且监控指标有限,异常告警方式单一,无法及时有效地通知运维人员。同时,传统监控方式已无法满足系统运营的个性要求。面对上述运维痛点,阳光全链路监控平台应运而生。
阳光全链路监控平台由阳光保险集团自主研发,以集团赋能子公司为基本原则,充分考虑各主体子公司的自主性和个性化需求。平台建设思路主要有如下三方面。
1.多数据源整合。目前常见的系统监控工具较多,不同监控领域使用的监控工具不同。如Zabbix、Piwik、Prometheus、Skywalking等,分别应用在不同的监控场景。阳光全链路监控平台整合各类监控工具的数据源,实现数据的集中展示和监控,从而实现从前端到后端的全链路监控。
2.集中研发和运维监控。通过集团集中的研发和运维,提升系统利用率,降低运营成本。目前阳光保险业务系统较多,各类系统均有监控需求,如各系统自行搭建监控平台,必将导致资源浪费和重复建设。本项目站在集团的高度,提供统一的监控平台和服务、集中的开发和运维,大幅提升了资源利用率。
3.集团赋能子公司。平台建设需要充分考虑系统的个性化需求,在提供公共监控平台能力的同时,还提供灵活的接入方式,提供监控数据集市以及标准的数据输出服务接口。各子公司可基于本平台扩展个性化需求,从而实现集团科技赋能子公司提升系统运营数字化能力。
全链路监控平台采用大数据技术,整合基础架构层、业务应用层和用户端运行数据,实现实时的系统运营全生命周期监控,提供多视角、多维度的可视化展示,既可为公司整体IT运营决策性提供数据支持,又可为一线运营人员提供及时的问题定位工具。闭环、可视化管理提升了系统运营效率和质量。全链路监控主要功能模块分为四个部分,如图1所示。
图1 全链路监控主要功能模块
1.监控数据源。主要作用是产生并记录监控数据。本方案集成了丰富的监控工具,主要包括前端监控、应用监控、服务器端监控、网络端监控、浏览器端监控、APP端监控、数据库端监控等。
2.监控数据收集。主要从各监控工具收集监控数据。数据收集模块根据数据源的特点,通过不同方式将监控的数据源进行收集汇总,形成标准化的格式,并发送至大数据平台进行处理计算。
3.监控数据计算。主要负责对监控数据进行实时或批量的处理计算、分析、存储。通过阳光云的大数据计算能力,将汇总的监控数据进行实时或定时计算、分析、统计,最终将结果持久化到数据库中,供前端数据展示使用。
4.监控数据展示。主要负责对监控数据进行大屏展示,供运维人员实时监控系统健康状态,通过告警推送(包括多告警源接入、告警设置、告警通知等功能),及时提醒运维人员处理系统问题。
常规监控工具能监控到的数据有限,只能单独监控服务器、中间件、网络、应用系统、容器、日志中的一种或几种,无法通过统一平台实现全面监控。
为实现业务系统全方位监控,平台在复用原有监控工具的同时,对多监控数据源进行整合,对监控链路进行完善和补充,并且将原来各设施孤岛式的监控数据打通,形成监控数据集市。监控链路示意如图2所示。整合前后端监控工具,让监控范围覆盖业务请求的各个环节,从而实现端到端的全方位无死角监控。
图2 全链路监控示意
阳光全链路监控平台目前已在全集团推广,并取得了较好的效果。平台的顺利推广得益于开发阶段对问题的充分评估、对技术难点的持续攻关。主要体现在如下三方面。
1.性能问题。业务系统增加监控探针后,系统性能是否受影响、系统监控范围是否可控,需要重点考虑。对于某些业务系统,安装探针后会出现性能瓶颈,因此需对平台的兼容性进行调优,避免系统框架与技术实现出现冲突。另外,对于监控平台自身而言,由于系统采用集中部署,随着监控数据的日益增加,必将导致监控平台的压力增加。本方案采用灵活设置业务系统监控范围的方式,一定程度上缓解了压力。
2.指标关联问题。如何实现各类监控指标的关联、实现端到端监控,是本项目的难点问题。本方案通过大数据平台对各类监控指标进行加工处理,在各环节监控数据中增加唯一标识,通过唯一标识对业务请求过程中各环节的监控数据进行关联,从而实现指标关联。
3.兼容性问题。不同时期建设的系统通常使用不同的技术和框架,技术组件也不一致,即便在同一时期建设的系统,技术组件也有差异,如何有效解决监控平台的兼容性问题是本项目的难点。例如,对不同中间件的兼容性、对不同浏览器的兼容性等等。在研发过程中,研发团队要考虑各类技术和组件的兼容性,充分开展测试,不断完善平台兼容性。
1.丰富的监控指标覆盖。平台监控范围覆盖了业务系统运行的各个环节,主要包括服务器端(CPU使用率、内存使用率等)、网络(网络入口流量,网络出口流量、丢包率等)、数据库(慢SQL、锁、活动连接数等)、中间件(数据源使用率、端口监控等)、容器(磁盘可用空间、POD网络I/O等)、应用服务器(应用平均响应时间、应用吞吐率等)、浏览器(页面响应时间、JS错误页面等)和APP端监控(用户数量、响应时间等),累计实现62个监控指标的监控。
2.赋能智能运营。平台能将运维人员定位问题的时间平均降低90%,将系统日常巡检效率提升30%,大幅降低人员运维成本。同时,帮助研发团队发现系统的性能瓶颈,提升系统的平均响应时间,从而进一步提升用户满意度。
3.系统推广成效。目前全链路监控平台已完成集团近6000余台服务器指标监控、300余个应用系统指标监控。用户覆盖阳光集团、阳光财险、阳光人寿及阳光信保,系统每月发出告警信息几千余次。对于异常情况,系统提供详细的监控数据,助力运维人员快速定位并解决问题,大大提升了各子公司的运维能力。
在技术创新和管理创新层面,阳光全链路监控平台都具有一定的参考价值。技术层面,采用大数据技术,整合基础架构层、业务应用层和用户端运行数据,提供了对接多监控数据源的解决方案,能快速新增监控指标,极大地扩充了监控数据链路范围,既可为公司整体IT运营决策提供数据支持,又为一线运营人员提供问题定位工具。管理层面,充分考虑各子公司的自主性和个性化需求,集团提供监控数据集市、标准数据输出服务接口和灵活的接入方式,实现集团科技赋能子公司运营的数字化转型。
(栏目编辑:郑岩、魏亚楠)
发布于:北京
相关推荐
实战 | 阳光全链路监控平台推动运维智能化升级
「中国式」IT运维,冲出围墙
百度智能云推动东胜房运智能房屋运营,海润集装箱码头全智能化改造项目年底将试运行 | 36氪数字化创新指南0621
「智容睿盛」打造建筑三维可视化运维平台,推动建筑管理向智能模式升级
36氪独家 | 从网站监控到全栈业务运维,「云智慧」获 2000 万美元 D 轮融资,华山资本领投
【智能运维】聚英基站动环监控系统解决方案,运维人员的必备助手
36氪首发 |「必示科技」获红杉中国领投1.5亿元B轮融资,升级新一代智能运维AIOps产品
36氪首发 | 全栈业务运维服务商「云智慧」获6000万美元D3轮融资,AIOps能力延伸到ITSM领域
麦当劳食品安全:致力于全链路透明化监管和数字化管理
浦东建立智能化垃圾收运体系,广州工行建立智慧金融生态圈 | 36氪大公司数字化创新指南0803
网址: 实战 | 阳光全链路监控平台推动运维智能化升级 http://m.xishuta.com/newsview84001.html