你的位置:九游会(中国区)集团官方网站 > 新闻动态 > J9九游会如手动查验日记或盘考开采团队-九游会(中国区)集团官方网站
发布日期:2024-07-15 00:09 点击次数:137
背 景跟着微办事架构的普及,当代企业的IT基础设施还是变得越来越复杂。单一的办事可能有多个下贱依赖,而这些依赖又可能有我方的子依赖,和主机资源的依赖。在这么的环境中,当某个办事发生故障,确定具体的原因变得尤为艰巨。传统的故障排查措施,如手动查验日记或盘考开采团队,既耗时又不一定能找到果真的根源。此外,跟着DevOps和握续集成/握续部署(CI/CD)的普及,诳骗的发布频率大大增多,这使得发布引起的办事中断变得更为常见。同期,资源和基础设施的动态性也为故障会诊带来了挑战。为了应付这些挑战,优维盘算了“Easy分析”办事故障根因分析器用,旨在为技巧团队提供一个集成、自动化的搞定决策,匡助其飞速、准确地定位办事故障时的原因。底下,从具体场景启程J9九游会,驻守先容办事故障根因分析器用。
1诳骗发布导致的办事故障
1.1 概述诳骗发布可能导致办事开动出现不阐明或其他未预期的影响。当办事发出告警时,本功能将自动分析告警标的,检测办事或其下贱办事在最近是否发生过变更。1.2 中枢功能变更检测:当办事告警时,系统会自动检测与告警关连的办事是否近期有变更事件,如启动、关闭、升级或重启等。双态部署事件联动:与双态部署系统精采集成,赢得最新的部署和变更事件信息。告警与变更关联:为告警事件提供径直与变更事件的关联,匡助团队快速确定是否有发布手脚导致的故障。破钞CMDB数据:凭据cmdb的办事关连的模子,自动关联下贱办事的变更事件1.3 场景确认及竖立假定微办事集群中,提供了一个名为flounder_metric的办事。办事的央求一般是从api_gateway接入到集群中,而且基于url路由至具体的诳骗组件来处理央求。因此,在这个场景中,存在这么一个调用关系:api_gateway -> flounder_metric在办事监控中,咱们会对flounder_metric的接口进行拨测。竖立的要道如下:竖立内网拨测战术,指定监控的诳骗是「http-logic.api_gateway」,它是api_gateway诳骗的办事象征;竖立对于flounder_metric办事的接口,在变量界说中,通过$.subservices.ip会自动赢得到办事下子办事的IP地址。
保存后即可。此时竖立基于detect_code的告警规矩,即可完成对该接口的监控。1.4 故障触发和根因分析咱们东谈主为触发一个办事告警,通过双态部署,关闭flounder_metric办事。
稍后,将触发一个拨测告警:
咱们通过事件细目,点击故障分析:
此时将看到故障分析页面,让咱们来讲明一下:
上方是告警事件的告警对象和告警标的握续的时刻,不错看到告警握续时刻边界是 11:55~12:04。接下来便是根因分析的论断,一共发现1个论断,和诳骗发布的变更关连。具体来说,有两个分析:http-logic.api_gateway有告警事件,莫得变更事件,确认不是api_gatewaya变更导致;由于api_gateway的下贱是flounder_metric办事,而该办事在12:00分发生了罢手操作,进而触发了告警,因此分析为:下贱HTTP办事http-logic.flounder_metric的变更导致的故障(这亦然这次故障的果真原因)。1.5 论断在微办事架构中,办事间的相互依赖和时常的诳骗发布步履可能会导致复杂的故障情况。在本场景中,通过"办事故障根因分析"器用,咱们告捷地自动检测到flounder_metric办事的罢手操作是导致api_gateway办事拨测告警的径直原因。该器用大略智能地关联告警事件与近期的诳骗变更,准确快速地定位到真实的故障原因。这次案例展示了"办事故障根因分析"器用的中枢功能,即自动识别与故障关连的变更,并为技巧团队提供明确的、数据驱动的根因分析。此功能大大减少了故障会诊时刻,并进步了故障收复的恶果。
2依赖资源高负载导致的办事故障
2.1 概述办事的性能和阐明性可能受到其开动环境的影响,相配是当它依赖的资源或子办事处于高负载现象时。本功能提供了与资源负载告警的自动关联能力,匡助识别故障的压根原因。2.2 中枢功能资源负载告警关联:当办事蔓延或其他性能标的出现问题时,系统会自动检测与该办事关联的子办事部署实例主机是否有高负载告警。直不雅的负载影响分析:为用户提供一个明晰的视图,展示办事与其依赖资源之间的关系,以及哪些资源的高负载可能影响了办事的性能。资源性能标的对比:允许用户对比办事性能标的与资源负载标的,举例,当办事蔓延增多时,不错立即稽查其方位主机的CPU或内存使用情况。2.3 场景确认及竖立假定微办事集群中,提供了一个名为cmdb_service的办事,而且对它的蔓延作念监控。咱们设定SLO是10ms,而且手动触发系统高负载,来谛视根因分析的准确性。为了杀青这个场景,咱们东谈主为设定当「磁盘IO的使用率」过高并触发告警后,再触发蔓延告警。当告警发生后,咱们点击故障分析,参加分析页:
分析页面如上所示,让咱们讲明一下。由于alert_service的下贱是tool.sandbox,而且这两个办事齐在主机:prod-host-10-36-enterprise-7-logic,而且该主机发生磁盘IO操作的CPU使用率过高的告警。因此根因分析就会把这些关系和告警研究起来,并见告给用户。除了「磁盘IO操作的CPU使用率」,还有「5分钟单核负载」,「集结流量」等标的均可触发高负载场景的分析。2.4 论断在微办事架构中,单一办事的性能往往与其所依赖的其他办事和资源精采关连。咱们在这次的模拟场景中告捷地展示了如何通过“办事故障根因分析”器用来识别和关联办事蔓延增多与其方位主机的资源高负载之间的因果关系。这种自动化的、轮廓的分析措施大大简化了故障会诊经由,确保了更快速、更准确的问题定位和搞定,进一步进步了办事的阐明性和可用性。
3维持按拓扑阵势分析故障演变情况
故障根因分析的分析视图改版,维持按拓扑阵势分析故障演变情况。在旧版块中,尽管不错关联并分析出总共可能导致故障的原因,然则分析视图所佩带的信息过于繁琐和冗余,不利于高效分析的方针。在新版故障分析视图中,维持以故障拓扑的阵势去智能分析故障演化旅途。如下所示:
如上图所示:红色为底色的方框代表办事产生的告警,比如端口拨测失败。此后展示了和此办事关联的其他办事的变更情况,由图可知,是17*.3*.**.**上的scheduler_service发生了变更导致办事告警。
如斯不错匡助用户快速排斥办事故障的原因是否由于变更产生J9九游会。
Powered by 九游会(中国区)集团官方网站 @2013-2022 RSS地图 HTML地图