五月综合激情网,wwww亚洲,怡红院av一区二区三区,香蕉久久夜色精品国产

020-8888888
網站首頁 關于IM電競平臺 產品中心 新聞動態 成功案例 榮譽資質 聯系我們
咨詢熱線
020-8888888
地址:上海市徐匯區淮海中路1469號
郵箱:

新聞動態

當前位置: 首頁 > 新聞動態

你知道嗎?硬件故障慢的根本原因竟然有這么多

發布時間:2024-06-12 19:37:56 點擊量:

3.1 各種根本原因

查找硬件緩慢故障的根本原因是一項艱巨的任務,因為它可能由多種根本原因引起,如表 3 所示。硬件性能故障可能是由設備內部的根本原因引起的,例如固件問題 (FW) 或設備錯誤/磨損 (ERR),這將在第 4 節中討論。但是,一個完美運行的設備也可能由于許多外部根本原因而降級,例如配置 (CONF)、環境 (ENV)、溫度 (TEMP) 和電源 (PWR) 相關問題,這將在第 5 節中介紹。請注意,一份報告可能有多種根本原因(環境和電源/溫度問題),因此表 3 中的總數 (112) 大于 101 份報告。

根本原因

固態硬盤

磁盤

內存

中央處理器

全部的

防火墻

10

10

40

20

溫度

壓水反應堆

環境

會議

11

20項亞健康信號_亞音信號_亞健康預警信號

18

聯合國兒童基金會

全部的

22

23

十三

二十九

二十五

112

表 3:不同硬件類型的根本原因。此表顯示了不同硬件類型的根本原因。該表在第 3.1 節中提供。硬件類型包括 SSD、磁盤、內存(“Mem”)、網絡(“Net”)和處理器(“CPU”)。內部根本原因是設備錯誤 (ERR) 和固件問題 (FW),外部根本原因是溫度 (TEMP)、電源 (PWR)、環境 (ENV) 和配置 (CONF)。標記為未知 (UNK) 的問題意味著操作員無法確定根本原因,只是更換了硬件。請注意,一份報告可能有多個根本原因(環境和電源/溫度問題),因此總數 (112) 大于 101 份報告。

3.2 失敗變成亞健康

故障停止、部分故障、瞬態故障等不同類型的故障可以轉換為亞健康故障。

故障停止導致亞健康故障:由于許多硬件部件連接在一起,故障停止組件可能會導致其他組件以亞健康故障模式運行。例如,由于備用電源沒有提供足夠的電力,CPU 速度被限制在 50%;單個壞盤耗盡了整個 RAID 卡的性能;供應商的故障固件使一批 SSD 停滯了幾秒鐘,禁用了閃存緩存層并降低了整個存儲堆棧的速度。這些示例表明,亞健康故障的發生可能與系統中的其他停止故障有關。此外,強大的故障停止容錯系統應確保故障停止故障不會變成亞健康故障。

瞬時故障到故障緩慢:除了故障停止之外,許多類型的硬件都可能遇到瞬時故障,例如磁盤偶爾返回 IO 錯誤,處理器有時會產生不正確的結果,有時內存位會損壞。由于其瞬時性和“罕見”性,固件/軟件通常會向用戶屏蔽這些錯誤。一種簡單的機制是重試操作或修復錯誤(例如,使用 ECC 或奇偶校驗)。但是,當瞬時故障頻繁發生時,錯誤屏蔽可能是一把“雙刃劍”,即由于錯誤屏蔽不是免費操作(例如,重試延遲、修復成本),當錯誤并不罕見時,屏蔽開銷將成為常見情況下的性能損失。

我們觀察到許多瞬時故障導致故障轉換緩慢的情況。例如,在性能下降的磁盤中,磁盤固件會頻繁觸發“先讀后寫”檢查;由于 ECC 校正大量 DRAM 位翻轉,機器被視為無法運行;PCIe 連接松動導致驅動程序多次重試 IO;許多網絡數據包丟失/損壞的情況(在我們的報告中,丟失/損壞率在 1-50% 之間)會觸發大量重試,導致網絡吞吐量大幅下降。

從上述故事中可以清楚地看出,必須區分罕見故障和頻繁瞬時故障。雖然可以屏蔽前者,但后者應該暴露給高級軟件堆棧和監控工具,而不是隱藏起來。

部分故障到亞健康故障:某些硬件還可能出現部分故障,即只有設備的某些部分不可用(即部分故障停止)。此類故障通常被固件/軟件層掩蓋(例如,通過重新映射)。然而,當部分故障的規模增加時,故障掩蓋可能會對性能產生負面影響。例如,在一次部署中,可用內存的大小隨著時間的推移而減少,增加了緩存未命中率但不會導致系統崩潰;SSD 中的壞芯片減少了過度配置空間的大小,觸發了更頻繁的垃圾收集;還有一個更廣為人知的問題是大量壞扇區的重新映射會導致更多的磁盤尋道。與上面描述的瞬態故障情況類似,需要區分小規模和大規模部分故障。

3.3 各類亞健康癥狀

我們觀察到亞健康故障癥狀的“多個方面”:永久性、暫時性、部分亞健康故障和暫時停止故障,如圖 1 所示。表 4 顯示了這些故障模式在硬件類型中的細分情況。表 5 顯示了這些故障模式在根本原因中的細分情況。

亞健康預警信號_20項亞健康信號_亞音信號

表 4:不同硬件類型的亞健康故障癥狀。該表格描述了不同硬件類型的亞健康故障癥狀。表格見 3.3 節。共有四種癥狀:永久減速、瞬時減速、部分減速和瞬時停止。

亞音信號_20項亞健康信號_亞健康預警信號

表 5:無根本原因的亞健康故障癥狀。此表見第 3.3 節。根本原因縮寫可在表 3 的標題中找到。這四種癥狀是永久減速、瞬時減速、部分減速和瞬時停止。

? 永久性減速:第一個癥狀(圖 1a)是永久性減速,設備最初運行良好,但隨后性能下降,無法恢復正常行為(直到手動修復問題)。此模式是四種模式中最簡單的一種,因為操作員始終可以看到問題。如表 4 所示,這種癥狀(幸運的是)是最常見的。

? 瞬間減速:第二種類型(圖 1b)是瞬間減速,設備性能在正常情況和顯著下降之間波動,這種情況下更難排除故障。例如,當環境過冷/過熱時,磁盤和網絡性能可能會下降,但當溫度恢復正常時,性能會恢復;當多個磁盤同時處于繁忙狀態時,偶爾會發生振動,這會使磁盤速度降低幾個數量級;并且,產生巨大負載的應用程序可能會導致機架電源控制無法為其他機器提供足夠的電力(從而降低其性能),直到耗電的應用程序完成。

? 部分減速:第三種模式(圖 1c)是部分減速,其中只有設備的某些部分會減速。換句話說,這是部分故障停止轉變為部分減速的情況(§3.2)。例如,內存的某些部分發生故障,需要執行更多 ECC 檢查;網絡路由器緩沖區的某些部分損壞,導致僅重新發送受影響的數據包;在一次事故中,40% 的大數據包丟失,但沒有小數據包丟失。部分故障停止轉變為亞健康模式也使調試變得復雜,因為某些操作會減速,但其他操作(在同一設備上)不受影響。

? 瞬時停頓:最后一種(圖 1d)是瞬時停頓情況,設備偶爾會自行重啟,隨后性能降至零。例如,有缺陷的固件會導致 SSD 有時從 RAID 控制器中“消失”,然后重新出現;SAS/SCSI 命令中偶爾出現的位翻轉會導致主機總線適配器反復重啟;節點在熱節流時自動重啟(例如,當風扇固件反應不夠快時)。

有一個(搞笑的)故事,在配有方便的臨時工作臺的數據中心,一名操作員將辦公椅放在存儲集群旁邊。操作員在椅子上搖晃,并反復從底盤中彈出熱插拔驅動器(很難診斷的關聯)。

3.4 連鎖因果

亞健康故障的另一個復雜性是事件的級聯鏈:首先,實際根源和硬件亞健康故障之間存在級聯原因鏈。其次,亞健康故障的癥狀會對更高級別的軟件堆棧產生級聯影響,并可能對整個集群產生影響。

以下是導致亞健康故障的長期連鎖根本原因的一些示例。計算節點中的風扇停止工作,導致其他風扇以最大速度運行以彌補壞掉的風扇,從而產生大量噪音和振動,進而降低磁盤性能。主板中的故障傳感器向操作系統報告了錯誤的值,導致 CPU 在省電模式下運行速度變慢。斷電導致的電力不足會導致許多類型的硬件、磁盤、處理器和網絡組件運行不理想。亞健康故障也可能是由電源故障本身引起的,例如,供應商遺漏了隨有故障電容器一起發貨的 120V 保險絲,該保險絲在重新通電時很有可能發生短路,從而導致小型電氣火災,并連鎖到機架級電源故障。

其次,當硬件進入亞健康狀態并變慢時,不僅會影響主機,還會在整個集群中引起連鎖反應。例如,一臺機器的網卡性能下降(從 1 Gbps 下降到 1 Kbps)會引起連鎖反應,使整個 100 臺機器的集群變慢(因為受影響的連接任務會長時間占用容器/信號,新的作業會因為信號不足而無法運行)。在 HDFS HA(高可用性)部署中,當其中一個磁盤非常慢時,名稱節點的仲裁將掛起。在 HBase 部署中,以正常速度 25% 運行的存儲卡將導致積壓、內存不足和崩潰。同樣,性能下降的磁盤會造成工作積壓,一直到客戶端 VM,為用戶彈出“死機藍屏”;

3.5 罕見但致命:檢測時間長

我們報告的亞健康故障事件需要數小時甚至數月才能檢測(精確定位)。更具體地說,1% 的問題在幾分鐘內發現,13% 在數小時內發現,13% 在數天內發現,11% 在數周內發現,17% 在數月內發現(45% 的時間未知)。一些工程師稱之為“昂貴的調試尾部”。在一個故事中,一整個工程師團隊被拉來調試這個問題,花費了組織數萬美元。檢測時間 (TTD) 過長的原因有很多。

首先,亞健康故障發生頻率不如故障停止情況高,這意味著當今的軟件系統無法完全預測(即中斷)此類情況。因此,雖然較頻繁的故障可以快速修復,但頻率較低但更復雜的故障(系統無法緩解)可能會耗費工程師大量時間。

其次,如前所述,根本原因可能不是由亞健康的硬件引起的(例如,§3.3 中由耗電應用程序引起的瞬間速度減慢花了幾個月的時間才解決,因為問題不是源于速度慢的機器或電源)。

第三,超出操作員控制范圍的外部環境條件可能會延長診斷時間(例如,幾個月以來,供應商無法在其低水位測試設施中重現亞健康故障減速癥狀,因為硬件僅在高水位時才會減速)。

最后,操作員并不總是能夠全面了解整個硬件堆棧(例如,由于操作員無法了解電力設備的運行狀況,因此事故可能需要幾天時間才能解決)。

Copyright ? 2002-2025 IM電競平臺 版權所有 非商用版本  網站備案號:冀ICP備165016778號    網站地圖
主站蜘蛛池模板: 定西市| 河北省| 龙川县| 拉萨市| 灵石县| 宣武区| 济源市| 南召县| 许昌市| 平顶山市| 耒阳市| 永嘉县| 嵊州市| 金华市| 朝阳市| 瑞安市| 华坪县| 娱乐| 民勤县| 佛冈县| 诸城市| 潞城市| 瓦房店市| 偃师市| 峨山| 阿荣旗| 定南县| 开远市| 阜南县| 宝鸡市| 忻州市| 综艺| 马边| 南木林县| 荔浦县| 河东区| 丹巴县| 临清市| 报价| 岫岩| 襄垣县|