为此,运维人员需要:
1、通过持续监控可能影响业务系统可用性的因素;
2、故障发生后第一时间通知相关人员;
3、通过工具定位故障根本原因,运维和开发人员可以在最短时间内解决故障;
2. 为什么你需要保持健康:
传统的监控工具主要侧重于资源级监控,关注各种资源的运行状态,而没有对业务系统的运行状态进行整体评估。
随着用户数量和数据量的增加,业务系统的压力也越来越大,对运行的基础IT资源的要求也越来越高。 业务系统出现故障,会导致很多基础业务无法开展。 因此,一件关系到整体健康的事情就成为了从业务负责人到运维工程师每个人都必须关注的事情。
3、健康要点:
3.1 可用性:
首先,业务系统的运行状态分为“可用”和“不可用”两种状态。 如果业务系统或其支撑服务不可用,则健康评分将为0甚至负数。
其次,与业务系统相关的网络、中间件、数据库的运维状态分为“可用”和“不可用”两种状态。 如果存在“不可用”状态,则根据关键点的重要性等级权重来计算业务系统的健康度。
第三,业务系统底层硬件设备也有“可用”和“不可用”两种状态。 考虑到当前的服务都采用高可用模式,会出现服务“可用”但支持的硬件“不可用”的情况。 。
3.2 性能:
性能指标更关注业务系统,包括:响应时间(又可以细分为:响应时间(宏观);加载速度(微观,各个服务))。 通过控制性能健康权重值可以调整业务系统的健康度。
4、保健成分
4.1 参数定义
4.1.1 报警级别L(Level)
严重报警L2(默认3点)
通用报警L1(默认1点)
4.1.2 对象级别O()
不重要O1(默认0.5分)
普通O2(默认1分)
重要O3(默认2分)
4.1.3 性能P()
未达到P1(默认2分)
4.2 健康配方
健康状况 H ()
H = 100 - ΣL * k1 - ΣO * k2 - ΣP * k3,其中 k1/2/3 是权重。
5. 总结
业务系统健康度可以将运维监控人员从海量的告警分析和告警实时监控中解放出来,让他们最直观地了解宏观情况,判断优先级和紧急程度。 从而大大提高工作效率。
让高层领导实时、快速、动态地掌握业务系统的运行健康状况。
配合监控报警、根因定位等系统,可以有效保障业务系统健康稳定运行,真正做到“事前监控预防,事后根因定位”。