www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 智能硬件 > 智能硬件
[導讀]摘要 IBM高性能計算機系統(tǒng)承擔著中國氣象局主要氣象氣候業(yè)務(wù)科研模式運行,整個系統(tǒng)的數(shù)據(jù)交換網(wǎng)絡(luò)是通過HPS(High Performance switch)來實現(xiàn)的。2006年9月21日,IBM高性能計算機系統(tǒng)的HPS網(wǎng)絡(luò)發(fā)生故障,導致了科研分

摘要 IBM高性能計算機系統(tǒng)承擔著中國氣象局主要氣象氣候業(yè)務(wù)科研模式運行,整個系統(tǒng)的數(shù)據(jù)交換網(wǎng)絡(luò)是通過HPS(High Performance switch)來實現(xiàn)的。2006年9月21日,IBM高性能計算機系統(tǒng)的HPS網(wǎng)絡(luò)發(fā)生故障,導致了科研分區(qū)不能使用,但沒有影響業(yè)務(wù)模式系統(tǒng)。文章主要介紹了這次故障現(xiàn)象和解決辦法,分析了故障發(fā)生的原因,并通過對故障的分析總結(jié),探討了目前存在的問題,以及以后的一些工作計劃和建議。

引言

IBM高性能計算機系統(tǒng)承擔中國氣象局主要的天氣氣候業(yè)務(wù)科研模式運行,系統(tǒng)在2004年末安裝以來,運行一直比較平穩(wěn)。在整個系統(tǒng)中,數(shù)據(jù)交換是通過IBM HPS(High Performance Switch)網(wǎng)絡(luò)實現(xiàn)的,通過SWITCH網(wǎng)絡(luò)為用戶的并行作業(yè)提供通信。如果SWITCH網(wǎng)絡(luò)出現(xiàn)問題,就會影響模式的運行效率,甚至可以導致整個系統(tǒng)不能使用。在2006年9月21日,科研分區(qū)的SWITCH網(wǎng)絡(luò)故障,導致了整個科研分區(qū)的癱瘓,9月24日故障恢復;此次故障對數(shù)值預(yù)報系統(tǒng)和動力氣候模式預(yù)測系統(tǒng)的業(yè)務(wù)模式?jīng)]有影響,只是涉及了科研分區(qū)的用戶和作業(yè)。

1 故障基本情況

1.1 故障現(xiàn)象

2006年9月21日,科研分區(qū)的系統(tǒng)性能下降,用戶作業(yè)的運算速度比較慢,檢查發(fā)現(xiàn)HPS(High Performance Switch)[1]網(wǎng)絡(luò)的通信狀態(tài)大面積出現(xiàn)異常,影響了GPFS(General Parallel File System)[2]數(shù)據(jù)文件系統(tǒng)和作業(yè)管理軟件L DLEVEL的正常運行,導致用戶無法使用數(shù)據(jù)空間和正常提交用戶作業(yè),最終導致了用戶無法使用科研分區(qū);在SWITCH網(wǎng)絡(luò)通信正常后,GPFS文件系統(tǒng)中的有些文件不能正常訪問。

1.2 處理過程

在故障發(fā)生后,為了確保不影響業(yè)務(wù),代寫論文 對系統(tǒng)上運行的業(yè)務(wù)模式分析并做應(yīng)急處理。系統(tǒng)承擔的業(yè)務(wù)模式包括數(shù)值預(yù)報業(yè)務(wù)模式系統(tǒng)和動力氣候模式系統(tǒng),這些業(yè)務(wù)模式都運行在業(yè)務(wù)分區(qū),但是動力氣候模式系統(tǒng)的用戶空間掛接在科研分區(qū)的服務(wù)節(jié)點上,為了避免維護科研分區(qū)時影響業(yè)務(wù),緊急切換HACMP(High Available Cluster Multi—Processing),使文件系統(tǒng)掛接在業(yè)務(wù)分區(qū)。

在確保業(yè)務(wù)可以穩(wěn)定運行后,由于當時用戶已無法使用科研分區(qū),因此首先申請對科研分區(qū)進行停機維護,然后分析并解決故障,處理過程如下。

(1)分析HPS網(wǎng)絡(luò)通信數(shù)據(jù),發(fā)現(xiàn)F45一S11和F46一S07的兩塊主板上的芯片內(nèi)部通信不正常,決定更換這兩塊主板;但由于備件新?lián)p的原因,只有一塊主板可用,只更換了F46一S07 SWITCH的主板。

(2)在重新加電啟動完畢后,仍有大量的HPS網(wǎng)絡(luò)不能通信,導致GPFS不能穩(wěn)定工作,用戶無法正常提交作業(yè)。

(3)用SWITCH管理界面檢查SWITCH狀態(tài)時,顯示大量節(jié)點存在光纖卡故障的報錯,但光纖卡的狀態(tài)指示燈顯示正常,更換了5塊光纖卡進行檢測,沒有作用,故排除了大批量光纖卡故障的可能。

(4)收集SWITCH的SNAP數(shù)據(jù)傳給美國實驗室,對數(shù)據(jù)進行分析;經(jīng)過數(shù)據(jù)的多次收集傳遞,美國實驗室SWITCH產(chǎn)品專家對底層數(shù)據(jù)進行分析后,建議對F20、F21、F22、F24、F28、F30、F34、F36、F38、F45、F46、F47、F48、F49、F50機柜進行電源微碼刷新,刷新為統(tǒng)一的26A6版本后,SWITCH網(wǎng)絡(luò)恢復正常。

(5)系統(tǒng)啟動后,對科研分區(qū)進行檢查,發(fā)現(xiàn)不能正常訪問GPFS文件系統(tǒng),3個文件系統(tǒng)均報I/O讀的錯誤,但可以正常寫入數(shù)據(jù);fsl可以用mmfsck命令進行修復,但fs2和fs3均各有一個NsD(Net—work Shared Disk)的狀態(tài)為“down”狀態(tài),然后手工啟動GPFS文件系統(tǒng),整個系統(tǒng)恢復正常。

2 故障原因分析

2.1 控制信號傳輸過程

從圖1可見,IBM 高性能計算機系統(tǒng)是通過硬件控制終端HMC(Hardware Management Console)對主機和SWITCH的硬件進行控制,通過HMC上的SNM (SWITCH Network Manager)軟件管理HPS,在HMC上啟動FNMD(Federation Network Manager Daemon)進程,實現(xiàn)對HPS網(wǎng)絡(luò)的配置、初始化、監(jiān)視、控制、恢復、分析和診斷。此功能與節(jié)點是否安裝操作系統(tǒng)無關(guān),因為這些指令直接由HMC發(fā)起,控制指令都是通過電源傳輸?shù)?,只要電源正常,就會響?yīng)執(zhí)行,SWITCH的拓撲結(jié)構(gòu)是在電源啟動的過程中通過自檢獲得的。

每個HMC系統(tǒng)有一個RS232串口連接CSP(Common Service Processor)[2],代寫畢業(yè)論文實現(xiàn)對主機的控制和管理,如開機、關(guān)機、關(guān)閉系統(tǒng)、重新啟動等;有兩個RS422串口分別連接節(jié)點和SWITCH機柜的兩個BPA(Bulk Power Assembly)電源,實現(xiàn)對BPA的監(jiān)視和firmware管理。所有的HPS都是通過BPA提供電源,對于每一個SWITCH,通過HMC將信號發(fā)送給BPA,再通過BPA 將控制信息通過SWITCH的DCA(Distributed Converter Assembly)電源傳送給SWITCH,來實現(xiàn)對SWITCH的管理。

2.2 SWITCH初始化實現(xiàn)的功能

在啟動SWITCH之前,首先要確保HMC已經(jīng)正常啟動;在SWITCH 機柜加電后,由SSP(SWITCH Service Processor)控制SWITCH的加電過程,在每一個SWITCH芯片的寄存器中記錄本地以及相鄰芯片的機柜號、端口號等信息。

在節(jié)點機柜加電后,每個SNI芯片寄存器中保存自己的機柜號和GX-BUS信息,并將這些信息傳輸給相鄰的SNI芯片寄存器。

由HMC節(jié)點啟動FNM進程,對所有的硬件控制器初始化,配置FNM 網(wǎng)絡(luò);網(wǎng)絡(luò)配置好以后對FNM初始化,F(xiàn)NM 將與每個激活的SWITCH和SNI網(wǎng)絡(luò)部件通信;將FRAME、CHIP、PORT、ROUTE、SWITCH等信息都保存在寄存器中,節(jié)點轉(zhuǎn)入LPAR狀態(tài)后將信息保存在內(nèi)存中,SWITCH初始化完畢。

2.3 故障原因分析

在2006年6月到9月期問,科研分區(qū)共更換了7塊BPA機柜電源、8塊SWITCH DCA電源、8塊p655 DCA節(jié)點電源。

由于IBM高性能計算機系統(tǒng)的有些電源模塊被更換,并且有些備件號發(fā)生了變化,雖然新備件可以實現(xiàn)對原備件的替代功能,但是新舊電源備件的微碼版本部分存在不一致;而SWITCH的控制信息是通過HMC—BPA—DCA進行傳送,電源相關(guān)部件微碼版本的不一致影響了信息的正常傳送,進而影響SWITCH的網(wǎng)絡(luò)初始化,不能得到正確的網(wǎng)絡(luò)拓撲結(jié)構(gòu),導致不能建立正常的SwITCH通路;而通過刷新一次機柜電源BPA同版本微碼,使電源模塊上的通信進程狀態(tài)重新初始化(歸零操作),清除了電源模塊上的錯誤通信信息記錄,可以將控制信息正確傳送,重新建立了正確的網(wǎng)絡(luò)通路。

GPFS文件系統(tǒng)不能正常讀寫主要是由于SWITCH網(wǎng)絡(luò)通信不穩(wěn)定,GPFS的通信頻繁發(fā)生中斷,所以GPFS的文件系統(tǒng)也會頻繁異常上線或離線(mount或umount狀態(tài)),使GPFS文件系統(tǒng)控制的有些硬盤上的NSD(Network Shared Disk)控制信息不一致,GPFS為了保證數(shù)據(jù)的安全性,系統(tǒng)自動對此NSD進行了隔離操作。

3 故障事件的分析和啟發(fā)

從這次發(fā)生的故障情況來看,由于在系統(tǒng)本身設(shè)計和日常維護的過程中考慮了高可靠性和對于用戶數(shù)據(jù)的一致性管理,因此在科研分區(qū)出現(xiàn)問題的情況下,并沒有影響業(yè)務(wù)作業(yè)的正常運行,這是對系統(tǒng)高可靠性的一次檢驗;但同時通過這次故障事件,也發(fā)現(xiàn)了我們的許多不足,并且也為日常維護提供了一個經(jīng)驗和教訓。

3.1 系統(tǒng)可靠性驗證

由于在系統(tǒng)設(shè)計上考慮了用戶文件系統(tǒng)高可用性的設(shè)計以及全局的用戶環(huán)境一致性,代寫職稱論文 同時在日常維護工作中對用戶文件系統(tǒng)都做了備份,因此對業(yè)務(wù)用戶沒有造成影響。

3.2 系統(tǒng)本身的問題

SWITCH設(shè)備故障率比較高:從系統(tǒng)投入運行以來,SWITCH設(shè)備的故障率就比較高。2006年5月1日到10月31日期問,科研分區(qū)就出現(xiàn)了39次SWITCH硬件故障,其中光纖卡故障22次,銅卡故障6次,主板故障1次、電源故障10次;業(yè)務(wù)分區(qū)有17次SWITCH硬件故障,其中光纖卡故障8次,電源故障9次。

故障診斷定位難:在對SWITCH設(shè)備維護時,光纖卡和銅卡的故障診斷相對容易,故障現(xiàn)象明顯,有冗余連接,一般不影響系統(tǒng)和用戶的正常使用;而SWITCH背板故障及電源微碼不一致等故障,則不容易定位具體的故障點,對系統(tǒng)的影響也比較大。

3.3 日常維護及管理問題

日常維護不夠深入:在日常的維護過程中,主要還是停留在處理現(xiàn)象明顯的軟硬件故障,并沒有對系統(tǒng)的一些潛在故障進行分析研究,而且對系統(tǒng)了解不夠深入,在出現(xiàn)大的故障時不知如何判斷處理。

管理流程不完善:從本次故障來看,備件不能滿足在重大情況下的處理要求;廠家技術(shù)支持不暢通,響應(yīng)速度慢,這都直接延長了故障恢復時問。

4 后續(xù)工作和建議

此次故障發(fā)生后,陸續(xù)完成和制定了一些工作計劃。

(1)完成了業(yè)務(wù)分區(qū)電源微碼的檢查。察看了業(yè)務(wù)分區(qū)SWITCH的微碼版本,發(fā)現(xiàn)也存在需要重新安裝的警告提示,但是由于報錯的機柜比較少,并沒有對系統(tǒng)造成影響,目前已經(jīng)完成對業(yè)務(wù)分區(qū)電源微碼的統(tǒng)一刷新。

(2)制定了IBM 高性能計算機系統(tǒng)業(yè)務(wù)應(yīng)急備份方案。當遇到緊急情況時,能夠快速評估當前狀況并進行處理。

(3)完成了系統(tǒng)存儲資源的擴充。擴大了目前用戶的存儲資源,并滿足了業(yè)務(wù)應(yīng)用系統(tǒng)備份的資源需求。

(4)完成了HPGS系統(tǒng)的微碼升級。2007年4月已經(jīng)將整個系統(tǒng)HPS的Service Pack版本級別升級到21。

(5)加強管理。督促廠家人員完善技術(shù)緊急支持的響應(yīng)速度和流程,保證技術(shù)支持的暢通;同時要確保備件的充足可用。

(6)加強維護手段和交流。在日常維護中,代寫工作總結(jié) 不僅是滿足于簡單的問題解決,需要深入分析診斷,找到問題的真正原因,避免潛在的隱患故障;同時要多通過學習以及技術(shù)交流,加深對全系統(tǒng)的了解,不斷提高維護水平,提高自己的故障解決能力。

5 結(jié)束語

此次故障雖然沒有對我們的業(yè)務(wù)造成影響,但是通過此次故障情況,我們看到了我們還存在的許多不足,需要我們在以后的工作中加以改進。通過不斷地分析和總結(jié),維護好我們的系統(tǒng),保持系統(tǒng)高效穩(wěn)定的運行。

參考文獻

[1] IBM,Inc.An Introduction to the New IBM F.server pS~#39;ie8 High Performance SWITCH [EB/OL].http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/SG246978.htm1.

[2] IBM,Inc.General Parallel File System Administration and Pro.gramming Reference[EB/OL].http://publib.boulder.ibm.comAnfocenter/dresetr/vxrxAndex.jsp?topic=/corn.ibm .clus—ter.gpfs.doc/gpfsbooks.htm1.

更多計算機與外設(shè)信息請關(guān)注:21ic計算機與外設(shè)頻道

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉