中文字幕 日本 在线 高清,久久精品国产99精品国,超碰人人香蕉,一区二区三区无码高清视频

優(yōu)維「Easy分析」:一款故障根因分析小神器(優(yōu)維檢測)

優(yōu)維「Easy分析」:一款故障根因分析小神器(優(yōu)維檢測)

背 景

隨著微服務(wù)架構(gòu)的普及,現(xiàn)代企業(yè)的IT基礎(chǔ)設(shè)施已經(jīng)變得越來越復(fù)雜。單一的服務(wù)可能有多個(gè)下游依賴,而這些依賴又可能有自己的子依賴,和主機(jī)資源的依賴。在這樣的環(huán)境中,當(dāng)某個(gè)服務(wù)發(fā)生故障,確定具體的原因變得尤為困難。傳統(tǒng)的故障排查方法,如手動檢查日志或詢問開發(fā)團(tuán)隊(duì),既耗時(shí)又不一定能找到真正的根源。

此外,隨著DevOps和持續(xù)集成/持續(xù)部署(CI/CD)的普及,應(yīng)用的發(fā)布頻率大大增加,這使得發(fā)布引起的服務(wù)中斷變得更為常見。同時(shí),資源和基礎(chǔ)設(shè)施的動態(tài)性也為故障診斷帶來了挑戰(zhàn)。

為了應(yīng)對這些挑戰(zhàn),優(yōu)維設(shè)計(jì)了“Easy分析”服務(wù)故障根因分析工具,旨在為技術(shù)團(tuán)隊(duì)提供一個(gè)集成、自動化的解決方案,幫助其迅速、準(zhǔn)確地定位服務(wù)故障時(shí)的原因。

下面,從具體場景出發(fā),詳細(xì)介紹服務(wù)故障根因分析工具。

1

應(yīng)用發(fā)布導(dǎo)致的服務(wù)故障

1.1 概述

應(yīng)用發(fā)布可能導(dǎo)致服務(wù)運(yùn)行出現(xiàn)不穩(wěn)定或其他未預(yù)期的影響。當(dāng)服務(wù)發(fā)出告警時(shí),本功能將自動分析告警指標(biāo),檢測服務(wù)或其下游服務(wù)在最近是否發(fā)生過變更。

1.2 核心功能

  • 變更檢測:當(dāng)服務(wù)告警時(shí),系統(tǒng)會自動檢測與告警相關(guān)的服務(wù)是否近期有變更事件,如啟動、關(guān)閉、升級或重啟等。
  • 雙態(tài)部署事件聯(lián)動:與雙態(tài)部署系統(tǒng)緊密集成,獲取最新的部署和變更事件信息。
  • 告警與變更關(guān)聯(lián):為告警事件提供直接與變更事件的關(guān)聯(lián),幫助團(tuán)隊(duì)快速確定是否有發(fā)布活動導(dǎo)致的故障。
  • 消費(fèi)CMDB數(shù)據(jù):根據(jù)cmdb的服務(wù)相關(guān)的模型,自動關(guān)聯(lián)下游服務(wù)的變更事件

1.3 場景說明及配置

假設(shè)微服務(wù)集群中,提供了一個(gè)名為flounder_metric的服務(wù)。服務(wù)的請求一般是從api_gateway接入到集群中,并且基于url路由至具體的應(yīng)用組件來處理請求。因此,在這個(gè)場景中,存在這樣一個(gè)調(diào)用關(guān)系:api_gateway -> flounder_metric

在服務(wù)監(jiān)控中,我們會對flounder_metric的接口進(jìn)行撥測。配置的步驟如下:

  • 建立內(nèi)網(wǎng)撥測策略,指定監(jiān)控的應(yīng)用是「http-logic.api_gateway」,它是api_gateway應(yīng)用的服務(wù)標(biāo)識;
  • 配置關(guān)于flounder_metric服務(wù)的接口,在變量定義中,通過$.subservices.ip會自動獲取到服務(wù)下子服務(wù)的IP地址。

優(yōu)維「Easy分析」:一款故障根因分析小神器(優(yōu)維檢測)

保存后即可。

此時(shí)配置基于detect_code的告警規(guī)則,即可完成對該接口的監(jiān)控。

1.4 故障觸發(fā)和根因分析

我們?nèi)藶橛|發(fā)一個(gè)服務(wù)告警,通過雙態(tài)部署,關(guān)閉flounder_metric服務(wù)。

優(yōu)維「Easy分析」:一款故障根因分析小神器(優(yōu)維檢測)

稍后,將觸發(fā)一個(gè)撥測告警:

優(yōu)維「Easy分析」:一款故障根因分析小神器(優(yōu)維檢測)

我們通過事件詳情,點(diǎn)擊故障分析:

優(yōu)維「Easy分析」:一款故障根因分析小神器(優(yōu)維檢測)

此時(shí)將看到故障分析頁面,讓我們來解釋一下:

優(yōu)維「Easy分析」:一款故障根因分析小神器(優(yōu)維檢測)

上方是告警事件的告警對象和告警指標(biāo)持續(xù)的時(shí)間,可以看到告警持續(xù)時(shí)間范圍是 11:55~12:04。

接下來就是根因分析的結(jié)論,一共發(fā)現(xiàn)1個(gè)結(jié)論,和應(yīng)用發(fā)布的變更相關(guān)。具體來說,有兩個(gè)分析:

  • http-logic.api_gateway有告警事件,沒有變更事件,說明不是api_gatewaya變更導(dǎo)致;
  • 由于api_gateway的下游是flounder_metric服務(wù),而該服務(wù)在12:00分發(fā)生了停止操作,進(jìn)而觸發(fā)了告警,因此分析為:下游HTTP服務(wù)http-logic.flounder_metric的變更導(dǎo)致的故障(這也是此次故障的真正原因)。

1.5 結(jié)論

在微服務(wù)架構(gòu)中,服務(wù)間的相互依賴和頻繁的應(yīng)用發(fā)布行為可能會導(dǎo)致復(fù)雜的故障情況。在本場景中,通過"服務(wù)故障根因分析"工具,我們成功地自動檢測到flounder_metric服務(wù)的停止操作是導(dǎo)致api_gateway服務(wù)撥測告警的直接原因。該工具能夠智能地關(guān)聯(lián)告警事件與近期的應(yīng)用變更,準(zhǔn)確快速地定位到真實(shí)的故障原因。

此次案例展示了"服務(wù)故障根因分析"工具的核心功能,即自動識別與故障相關(guān)的變更,并為技術(shù)團(tuán)隊(duì)提供明確的、數(shù)據(jù)驅(qū)動的根因分析。此功能大大減少了故障診斷時(shí)間,并提高了故障恢復(fù)的效率。

2

依賴資源高負(fù)載導(dǎo)致的服務(wù)故障

2.1 概述

服務(wù)的性能和穩(wěn)定性可能受到其運(yùn)行環(huán)境的影響,特別是當(dāng)它依賴的資源或子服務(wù)處于高負(fù)載狀態(tài)時(shí)。本功能提供了與資源負(fù)載告警的自動關(guān)聯(lián)能力,幫助識別故障的根本原因。

2.2 核心功能

  • 資源負(fù)載告警關(guān)聯(lián):當(dāng)服務(wù)延遲或其他性能指標(biāo)出現(xiàn)問題時(shí),系統(tǒng)會自動檢測與該服務(wù)關(guān)聯(lián)的子服務(wù)部署實(shí)例主機(jī)是否有高負(fù)載告警。
  • 直觀的負(fù)載影響分析:為用戶提供一個(gè)清晰的視圖,展示服務(wù)與其依賴資源之間的關(guān)系,以及哪些資源的高負(fù)載可能影響了服務(wù)的性能。
  • 資源性能指標(biāo)對比:允許用戶對比服務(wù)性能指標(biāo)與資源負(fù)載指標(biāo),例如,當(dāng)服務(wù)延遲增加時(shí),可以立即查看其所在主機(jī)的CPU或內(nèi)存使用情況。

2.3 場景說明及配置

假設(shè)微服務(wù)集群中,提供了一個(gè)名為cmdb_service的服務(wù),并且對它的延遲做監(jiān)控。我們設(shè)定SLO是10ms,并且手動觸發(fā)系統(tǒng)高負(fù)載,來審視根因分析的準(zhǔn)確性。

為了實(shí)現(xiàn)這個(gè)場景,我們?nèi)藶樵O(shè)定當(dāng)「磁盤IO的使用率」過高并觸發(fā)告警后,再觸發(fā)延遲告警。

當(dāng)告警發(fā)生后,我們點(diǎn)擊故障分析,進(jìn)入分析頁:

優(yōu)維「Easy分析」:一款故障根因分析小神器(優(yōu)維檢測)

分析頁面如上所示,讓我們解釋一下。

  • 由于alert_service的下游是tool.sandbox,并且這兩個(gè)服務(wù)都在主機(jī):prod-host-10-36-enterprise-7-logic,并且該主機(jī)發(fā)生磁盤IO操作的CPU使用率過高的告警。因此根因分析就會把這些關(guān)系和告警聯(lián)系起來,并告知給用戶。

除了「磁盤IO操作的CPU使用率」,還有「5分鐘單核負(fù)載」,「網(wǎng)絡(luò)流量」等指標(biāo)均可觸發(fā)高負(fù)載場景的分析。

2.4 結(jié)論

在微服務(wù)架構(gòu)中,單一服務(wù)的性能往往與其所依賴的其他服務(wù)和資源緊密相關(guān)。我們在這次的模擬場景中成功地展示了如何通過“服務(wù)故障根因分析”工具來識別和關(guān)聯(lián)服務(wù)延遲增加與其所在主機(jī)的資源高負(fù)載之間的因果關(guān)系。

這種自動化的、綜合的分析方法大大簡化了故障診斷過程,確保了更快速、更準(zhǔn)確的問題定位和解決,進(jìn)一步提高了服務(wù)的穩(wěn)定性和可用性。

3

支持按拓?fù)湫问椒治龉收涎葑兦闆r

故障根因分析的分析視圖改版,支持按拓?fù)湫问椒治龉收涎葑兦闆r。在舊版本中,盡管可以關(guān)聯(lián)并分析出所有可能導(dǎo)致故障的原因,但是分析視圖所攜帶的信息過于繁瑣和冗余,不利于高效分析的目的。在新版故障分析視圖中,支持以故障拓?fù)涞男问饺ブ悄芊治龉收涎莼窂健H缦滤荆?/span>

優(yōu)維「Easy分析」:一款故障根因分析小神器(優(yōu)維檢測)

如上圖所示:紅色為底色的方框代表服務(wù)產(chǎn)生的告警,比如端口撥測失敗。

而后展示了和此服務(wù)關(guān)聯(lián)的其他服務(wù)的變更情況,由圖可知,是17*.3*.**.**上的scheduler_service發(fā)生了變更導(dǎo)致服務(wù)告警。

優(yōu)維「Easy分析」:一款故障根因分析小神器(優(yōu)維檢測)

如此可以幫助用戶快速排除服務(wù)故障的原因是否由于變更產(chǎn)生。

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。

(0)
上一篇 2024年7月25日 下午7:11
下一篇 2024年7月25日 下午7:23

相關(guān)推薦

  • 科研項(xiàng)目費(fèi)用??顚S玫臅?jì)分錄

    科研項(xiàng)目費(fèi)用專款專用的會計(jì)分錄 科研項(xiàng)目是一項(xiàng)非常重要的任務(wù),也是國家科學(xué)研究的重要支撐??蒲许?xiàng)目的費(fèi)用通常包括人員費(fèi)用、設(shè)備費(fèi)用、房租費(fèi)用等。為了保障科研項(xiàng)目的順利進(jìn)行,必須對科…

    科研百科 2024年8月12日
    8
  • 安徽大學(xué)科研獎(jiǎng)勵(lì)

    安徽大學(xué)科研獎(jiǎng)勵(lì) 近年來,安徽大學(xué)在學(xué)術(shù)研究方面取得了令人矚目的成就,獲得了多項(xiàng)重要的科研獎(jiǎng)勵(lì)。這些獎(jiǎng)勵(lì)不僅是對安徽大學(xué)研究人員辛勤工作的肯定,更是對學(xué)??蒲袑?shí)力的提升和推動。 2…

    科研百科 2024年10月7日
    5
  • 廣西圖書館課題申報(bào)

    廣西圖書館課題申報(bào) 近年來,廣西圖書館在推進(jìn)數(shù)字化轉(zhuǎn)型和弘揚(yáng)優(yōu)秀傳統(tǒng)文化方面取得了顯著進(jìn)展。為了更好地發(fā)揮圖書館的作用,我們開始了一系列的課題申報(bào)工作。 作為廣西圖書館的重要職能之…

    科研百科 2024年11月22日
    1
  • 項(xiàng)目管理中,如何使用進(jìn)度貓制定項(xiàng)目計(jì)劃?(項(xiàng)目計(jì)劃、進(jìn)度與控制)

    項(xiàng)目計(jì)劃,是一個(gè)項(xiàng)目的起點(diǎn)。計(jì)劃不清晰,執(zhí)行力再強(qiáng)也只會讓項(xiàng)目跑偏。 制定一個(gè)好的項(xiàng)目計(jì)劃有哪些要點(diǎn): 1、確定目標(biāo) 項(xiàng)目目標(biāo)是項(xiàng)目所要達(dá)到的期望結(jié)果,擁有明確的目標(biāo)能夠幫助我們做…

    2022年7月20日
    569
  • 監(jiān)理項(xiàng)目管理系統(tǒng)

    監(jiān)理項(xiàng)目管理系統(tǒng) 監(jiān)理項(xiàng)目管理系統(tǒng)是一種用于協(xié)助項(xiàng)目監(jiān)理的計(jì)算機(jī)軟件系統(tǒng)。它能夠提供實(shí)時(shí)的項(xiàng)目進(jìn)度,質(zhì)量,成本控制等方面的監(jiān)控和管理,以確保項(xiàng)目在預(yù)定時(shí)間內(nèi),按照預(yù)期質(zhì)量標(biāo)準(zhǔn)完成。…

    科研百科 2024年7月12日
    24
  • 貨運(yùn)管理系統(tǒng)軟件

    貨運(yùn)管理系統(tǒng)軟件: 貨運(yùn)行業(yè)更高效的利器 隨著物流行業(yè)的發(fā)展,貨運(yùn)管理系統(tǒng)軟件已經(jīng)成為了貨運(yùn)行業(yè)必不可少的工具。貨運(yùn)管理系統(tǒng)軟件可以幫助貨運(yùn)公司更好地管理業(yè)務(wù)流程,提高效率,降低成…

    科研百科 2024年10月3日
    5
  • 設(shè)計(jì)進(jìn)度管理軟件

    設(shè)計(jì)進(jìn)度管理軟件 隨著現(xiàn)代軟件開發(fā)的不斷推進(jìn),進(jìn)度管理已經(jīng)成為軟件開發(fā)過程中必不可少的一部分。為了更好地管理項(xiàng)目進(jìn)度,我們需要設(shè)計(jì)一種進(jìn)度管理軟件。 進(jìn)度管理軟件可以幫助我們跟蹤項(xiàng)…

    科研百科 2024年9月26日
    4
  • 吉林大學(xué)項(xiàng)目管理 系統(tǒng)

    吉林大學(xué)項(xiàng)目管理系統(tǒng) 吉林大學(xué)項(xiàng)目管理系統(tǒng)是一款功能強(qiáng)大的軟件,可用于吉林大學(xué)的各項(xiàng)項(xiàng)目管理。該系統(tǒng)的應(yīng)用范圍廣泛,包括項(xiàng)目計(jì)劃、進(jìn)度管理、成本預(yù)算、風(fēng)險(xiǎn)管理、質(zhì)量管理、溝通管理等…

    科研百科 2024年12月31日
    1
  • 鄉(xiāng)村項(xiàng)目怎么立項(xiàng)?@DOU+小助手(鄉(xiāng)村項(xiàng)目建設(shè))

    鄉(xiāng)村項(xiàng)目立項(xiàng)步驟。 很多朋友想在鄉(xiāng)村做項(xiàng)目不知道如何立項(xiàng),這條視頻告訴你。首先準(zhǔn)備好項(xiàng)目報(bào)規(guī)方案。 項(xiàng)目可行性報(bào)告,由村鎮(zhèn)一級進(jìn)行內(nèi)部溝通,加上土地相關(guān)部門,比如林業(yè)局農(nóng)業(yè)局,啟程…

    科研百科 2024年4月6日
    121
  • 車輛進(jìn)銷存管理系統(tǒng)-豐車智慧二手車(汽車進(jìn)銷存管理軟件)

    汽車管理系統(tǒng)是汽車制造商、經(jīng)銷商集團(tuán)、汽車4S商店和二手車經(jīng)銷商的重要管理系統(tǒng)?,F(xiàn)在汽車市場正在廣泛宣傳汽車管理系統(tǒng)、二手車管理系統(tǒng)、汽車數(shù)字企業(yè)和汽車企業(yè)的數(shù)字轉(zhuǎn)型。雖然市場上的…

    2022年7月31日
    466