現(xiàn)在有很多服務(wù)器托管用戶想著把服務(wù)器托管給托管商就省去了很多的麻煩事,服務(wù)器托管用戶不光享受著服務(wù)器托管商給提供的一系列網(wǎng)絡(luò)資源的時候,而服務(wù)器托管商也要對數(shù)據(jù)中心進(jìn)行日常的安全維護(hù),以保證用戶能享受到更好更優(yōu)質(zhì)的硬件資源支持,所以對于數(shù)據(jù)中心機(jī)房的維護(hù),想必用戶朋友們并不會感受到其中的復(fù)雜成度和其專業(yè)性吧。
一個大型的數(shù)據(jù)中心內(nèi)部往往都包含了很多小系統(tǒng),運維工作都是圍繞著這些具體的應(yīng)用系統(tǒng)展開的,具體的可以分為基礎(chǔ)運維管理、日常業(yè)務(wù)運維、網(wǎng)絡(luò)、服務(wù)器、存儲、安全六大部分,今天這篇文章騰佑小編就來說一說一般大型的數(shù)據(jù)中心應(yīng)該具備的哪些運維方法和能力。
第一、從數(shù)據(jù)中心的基礎(chǔ)運維管理方面來說
則主要有硬件配置管理、可維護(hù)性優(yōu)化、監(jiān)控、報警處理、自動化運維、斷網(wǎng),斷電、機(jī)房容災(zāi)等運維工作。硬件配置管理包含機(jī)柜里每臺服務(wù)器的型號和硬件配置,并清楚是哪些業(yè)務(wù)系統(tǒng)在使用這些服務(wù)器。即便是虛擬化運行環(huán)境,也需要知道這些虛機(jī)都在哪些物理機(jī)組成的資源池中流動。數(shù)據(jù)中心物理機(jī)和虛機(jī)數(shù)量都很龐大,使用自動化運維是非常有必要的。
自動化運維不僅能提升運維的工作效率,還可以減少人為的參與,同時讓數(shù)據(jù)中心自己管理自己,釋放人力。并對數(shù)據(jù)中心可能發(fā)生的故障還做好監(jiān)控與報警處理,以便能夠在故障發(fā)生的第一時間知曉問題,往往一次大的故障都是從開始的一點小故障逐漸擴(kuò)展最終引發(fā)整個大系統(tǒng)的崩潰的,所以在出現(xiàn)一些小的異常時一定要及時消除,而這些異常就要靠完善的監(jiān)控和報警系統(tǒng)來檢測。
第二、從數(shù)據(jù)中心的日常業(yè)務(wù)運維方面考慮
則主要有日常檢查、應(yīng)用變更、軟硬件升級、突發(fā)故障等。具體來說:
1.日常檢查:“千里之堤,潰于蟻穴”。任何的故障在出現(xiàn)之前都可能會有所表現(xiàn),小的隱患不消除,可能導(dǎo)致重大的故障出現(xiàn),所以數(shù)據(jù)中心日常的例行檢查工作枯燥,但也很重要,可以及時發(fā)現(xiàn)一些運行中的隱患。根據(jù)數(shù)據(jù)中心承載業(yè)務(wù)重要性的不同,要對數(shù)據(jù)中心里的所有運行的設(shè)備進(jìn)行例行檢查。檢查服務(wù)器應(yīng)用服務(wù)是否正常,CPU內(nèi)存等利用率是否正常。對應(yīng)用業(yè)務(wù)進(jìn)行檢查,看業(yè)務(wù)運行是否正常。還有對數(shù)據(jù)中心的機(jī)房環(huán)境也要進(jìn)行檢查,環(huán)境的溫度、濕度、灰塵是否合乎要求??照{(diào)、供電系統(tǒng)進(jìn)行運行良好,設(shè)備運行是否過熱,地板、天窗、消防、監(jiān)控都是檢查的部分??照{(diào)漏水、設(shè)備漏電都會對數(shù)據(jù)中心正常穩(wěn)定運行產(chǎn)生危害,千萬不可大意。
2.應(yīng)用變更:數(shù)據(jù)中心承載的業(yè)務(wù)不會是一成不變的,隨著業(yè)務(wù)的多樣化和不斷發(fā)展,經(jīng)常要對業(yè)務(wù)進(jìn)行調(diào)整,包括服務(wù)器和網(wǎng)絡(luò)的設(shè)置。因此要對服務(wù)器和網(wǎng)絡(luò)設(shè)備操作很熟悉,主要需要掌握Linux服務(wù)器命令和網(wǎng)絡(luò)協(xié)議。要根據(jù)應(yīng)用的需要,及時準(zhǔn)確做出變更。
3.軟硬件升級:數(shù)據(jù)中心的設(shè)備一般運行周期是五年,不斷地有設(shè)備需要逐漸淘汰進(jìn)行更換,也有一些設(shè)備因為存在軟件缺陷需要升級,因此軟硬件升級也是維護(hù)工作的一部分。軟硬件升級時需要做好回退機(jī)制,以防升級出現(xiàn)問題時無法回退,業(yè)務(wù)長時間無法恢復(fù)。當(dāng)接手?jǐn)?shù)據(jù)中心維護(hù)工作就會發(fā)現(xiàn),怎么會有那么多的升級,幾乎每個月都要有升級操作,熬夜升級工作成了維護(hù)人員的家常便飯。
4.突發(fā)故障:沒有任何一個數(shù)據(jù)中心是不出故障的,在數(shù)據(jù)中心運行的過程中都會出現(xiàn)這樣那樣的問題。對于突發(fā)故障,高水平的維護(hù)人員可以靜下心來冷靜分析故障的觸發(fā)原因,迅速找到解決的方法,如果在短時間內(nèi)找不到解決方法,也可以通過切換到備用設(shè)備上先恢復(fù)業(yè)務(wù),再進(jìn)行分析。這時擁有高水平的維護(hù)人員對于一個數(shù)據(jù)中心至關(guān)重要,在關(guān)鍵時刻就能派上用場。雖然這些工作看起來有些平常,但千萬別小看它們。數(shù)據(jù)中心日常維護(hù)工作實際上非常重要,關(guān)乎著整個數(shù)據(jù)中心業(yè)務(wù)的正常運行。只有重視數(shù)據(jù)中心的維護(hù)工作,才能給數(shù)據(jù)中心一個平安。
第三、數(shù)據(jù)中心網(wǎng)絡(luò)方面考慮
則主要有網(wǎng)絡(luò)硬件設(shè)備、ACL、OSPF、LACP、VIP、協(xié)議分析、流量、負(fù)載均衡、二三四七層情況、網(wǎng)絡(luò)監(jiān)控、萬兆板卡、核心交換等。網(wǎng)絡(luò)是數(shù)據(jù)中心的重要組成部分,是一切工作運行的基本保證,沒有網(wǎng)絡(luò)數(shù)據(jù)中心就無法運轉(zhuǎn)起來,所以保證網(wǎng)絡(luò)穩(wěn)定是數(shù)據(jù)中心運維工作中的重中之重。這里不僅要關(guān)注網(wǎng)絡(luò)的硬件問題,還要關(guān)注SDN軟件定義的網(wǎng)絡(luò)。一般傳統(tǒng)IT架構(gòu)中的網(wǎng)絡(luò),根據(jù)業(yè)務(wù)需求部署上線以后,如果業(yè)務(wù)需求發(fā)生變動,重新修改相應(yīng)網(wǎng)絡(luò)設(shè)備(路由器、交換機(jī)、防火墻)上的配置是一件非常繁瑣的事情。而在當(dāng)今互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)瞬息萬變的業(yè)務(wù)環(huán)境下,網(wǎng)絡(luò)的高穩(wěn)定與高性能還不足以滿足業(yè)務(wù)需求,靈活性和敏捷性反而更為關(guān)鍵。SDN所做的事是將網(wǎng)絡(luò)設(shè)備上的控制權(quán)分離出來,由集中的控制器管理,無須依賴底層網(wǎng)絡(luò)設(shè)備(路由器、交換機(jī)、防火墻),屏蔽了來自底層網(wǎng)絡(luò)設(shè)備的差異,而控制權(quán)是完全開放的,用戶可以自定義任何想實現(xiàn)的網(wǎng)絡(luò)路由和傳輸規(guī)則策略,從而更加靈活和智能。
進(jìn)行SDN改造后,無需對網(wǎng)絡(luò)中每個節(jié)點的路由器反復(fù)進(jìn)行配置,網(wǎng)絡(luò)中的設(shè)備本身就是自動化連通的。只需要在使用時定義好簡單的網(wǎng)絡(luò)規(guī)則即可。如果你不喜歡路由器自身內(nèi)置的協(xié)議,還可以通過編程的方式對其進(jìn)行修改,以實現(xiàn)更好的數(shù)據(jù)交換性能。比如百度自研交換機(jī),可以直接支持SDN的遠(yuǎn)程配置與管理特性,從而實現(xiàn)上線全自動配置。未來,自研交換機(jī)還會更進(jìn)一步和服務(wù)器自動化上線結(jié)合,提升服務(wù)器交付和管理效率。網(wǎng)絡(luò)可以說是包羅萬象,涉及太多的設(shè)備和協(xié)議、軟件層技術(shù),所以也需要不斷地學(xué)習(xí),加深對網(wǎng)絡(luò)技術(shù)的理解,這樣才能做好網(wǎng)絡(luò)運維工作。
第四、數(shù)據(jù)中心服務(wù)器方面考慮
則主要有文件系統(tǒng)、內(nèi)核參數(shù)調(diào)優(yōu)、各種硬盤驅(qū)動、內(nèi)核版本、Kernel panic等。Linux系統(tǒng)不僅在服務(wù)器,在網(wǎng)絡(luò)操作系統(tǒng)也占據(jù)著主流地位,掌握Linux系統(tǒng)的使用才能更好地處理服務(wù)器和網(wǎng)絡(luò)設(shè)備的運維工作,Linux是運維工作的一項基本技能。除了熟悉Linux系統(tǒng)的操作,還要對服務(wù)器的運行狀態(tài)和內(nèi)核運行狀態(tài)進(jìn)行監(jiān)控與管理,減少服務(wù)器故障的發(fā)生。一般大型的數(shù)據(jù)中心都包含有成千上萬臺的服務(wù)器,幾乎每天都會有服務(wù)器出現(xiàn)各種各樣的問題,只有對服務(wù)器有深入理解才能很好地消除問題。
為了防止服務(wù)器故障引發(fā)業(yè)務(wù)中斷,所以一般在服務(wù)器上都要部署虛擬化技術(shù)或者集群技術(shù),當(dāng)一臺服務(wù)器物理硬件故障時,業(yè)務(wù)可以平滑切換到其它服務(wù)器上,業(yè)務(wù)不會受到任何影響。這些虛擬化技術(shù)增加了運維的難度,也需要對虛擬化技術(shù)進(jìn)行不斷深入學(xué)習(xí)。另外數(shù)據(jù)中心服務(wù)器的定制化也是很有意義的一件事。云計算需要大規(guī)模部署,因此需要服務(wù)器具有更高的部署密度、節(jié)能而且易于管理,但對于每個節(jié)點的計算能力要求并不十分苛刻。而廠商生產(chǎn)的普通意義上的服務(wù)器由于要適應(yīng)多種應(yīng)用,則更多兼顧性能、擴(kuò)展性,忽略了成本和能耗。
而如果是專門為云定制的服務(wù)器,會針對云的特點進(jìn)行優(yōu)化設(shè)計,從而更加符合用戶的需要。對于企業(yè)來說,它帶來的好處顯而易見,試想一下,即使每臺定制化服務(wù)器節(jié)省的電力有限(4電源改2電源),但對于大規(guī)模部署的數(shù)據(jù)中心來說,長此以往,成本的節(jié)約也是顯而易見的。比如Google所擁有的服務(wù)器都是自己設(shè)計,采用定制化托盤,內(nèi)建電池做備用電源,相比傳統(tǒng)服務(wù)器成本和耗電都要低得多,這也為Google節(jié)省了大筆的電力開支。
第五、數(shù)據(jù)中心存儲方面考慮,架構(gòu)更加多樣和復(fù)雜化
在云計算、虛擬化、大數(shù)據(jù)等相關(guān)技術(shù)進(jìn)入數(shù)據(jù)中心后,存儲已經(jīng)發(fā)生了巨大的改變,塊存儲、文件存儲、對象存儲支撐起多種數(shù)據(jù)類型的讀取;集中式存儲已經(jīng)不再是數(shù)據(jù)中心的主流存儲架構(gòu),海量數(shù)據(jù)的存儲訪問,需要擴(kuò)展性、伸縮性極強(qiáng)的分布式存儲架構(gòu)來實現(xiàn)。在大規(guī)模系統(tǒng)支撐上,分布式文件系統(tǒng)、分布式對象存儲等技術(shù),為存儲的各種應(yīng)用提供了高度可伸縮、可擴(kuò)展和極大的彈性支撐和強(qiáng)大的數(shù)據(jù)訪問性能,并且因為這些分布式技術(shù)對標(biāo)準(zhǔn)化硬件的支持,使得大規(guī)模數(shù)據(jù)中心存儲得以低成本的建設(shè)和運維。當(dāng)然分布式存儲不是要取代現(xiàn)有的盤陣,而是為了應(yīng)付高速成長的數(shù)據(jù)量與帶寬而產(chǎn)生的新形態(tài)存儲系統(tǒng)。
另外就是軟件定義存儲,它代表了一種趨勢,即存儲架構(gòu)中軟件和硬件的分離,也就是數(shù)據(jù)層和控制層的分離。對于數(shù)據(jù)中心用戶而言,通過軟件來實現(xiàn)對存儲資源的管理和調(diào)度,實現(xiàn)存儲資源的虛擬化、抽象化、自動化,能夠完整的實現(xiàn)數(shù)據(jù)中心存儲系統(tǒng)的部署、管理、監(jiān)控、調(diào)整等多個要求,使得存儲系統(tǒng)具備靈活、自由和高可用等特點。企業(yè)及互聯(lián)網(wǎng)數(shù)據(jù)以每年50%的速率在增長,新增數(shù)據(jù)中結(jié)構(gòu)化數(shù)據(jù)總量有限,多數(shù)為非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)中心存儲架構(gòu)隨著業(yè)務(wù)發(fā)展也需要極強(qiáng)的彈性適應(yīng)能力,低成本、海量擴(kuò)展、高并發(fā)性能是面向大型云數(shù)據(jù)中心運營存儲架構(gòu)的基本技術(shù)屬性。如何進(jìn)行數(shù)量龐大且雜亂無章的數(shù)據(jù)存儲與深度應(yīng)用處理,并迅速提取有價值的信息,形成商業(yè)決策將成為各類型企業(yè)生存基礎(chǔ),也是今后存儲以及圍繞存儲架構(gòu)不斷衍生的業(yè)務(wù)發(fā)展方向。
第六、從數(shù)據(jù)中心安全方面來考慮
安全就是若干個小項:攻擊保護(hù)、升級備份、抓BUG/找BUG、腳本工具、數(shù)據(jù)安全、服務(wù)巡檢等項目,其中每一項拿出來其實都包含很多的內(nèi)容。比如說到攻擊與保護(hù),這個主要指的是防止外來的異常入侵者對數(shù)據(jù)中心發(fā)起的惡意和無意攻擊,惡意攻擊就是有人故意的使用各種攻擊方法,進(jìn)入到數(shù)據(jù)中心內(nèi)部,將重要的數(shù)據(jù)竊取或者破壞,達(dá)到其不可告人的目的。
也有的是無意的攻擊,因為整個數(shù)據(jù)中心是要與外界保持互聯(lián)互通的,運行是動態(tài)的,變化的,不可避免會有一些異常流量攻擊數(shù)據(jù)中心,有時甚至來自于數(shù)據(jù)中心內(nèi)部,比如某些服務(wù)器中毒,或者硬件故障,構(gòu)造出了環(huán)路,異常流量等網(wǎng)絡(luò)故障,這些都會影響到數(shù)據(jù)中心的運行,所以如何做好數(shù)據(jù)中心的攻擊與保護(hù)是一個很大的題目,這并不是在數(shù)據(jù)中心里部署幾臺安全設(shè)備就能解決的,需要對整個數(shù)據(jù)中心進(jìn)行全面的統(tǒng)一規(guī)劃,并有針對性地部署一些安全防護(hù)措施,而且隨著各種黑客技術(shù)的提升,安全防護(hù)措施也要不斷提升,這是一個不斷學(xué)習(xí)與完善的過程,只要數(shù)據(jù)中心還在運行,這個完善就不會停止。為了方便運維,也要做好一些執(zhí)行腳本,以便在出現(xiàn)突發(fā)事件時,能夠快速處理問題。
比如一個數(shù)據(jù)中心的業(yè)務(wù)出現(xiàn)異常,為了快速恢復(fù)業(yè)務(wù),需要將路由進(jìn)行調(diào)整,將流量全部引到其它的數(shù)據(jù)中心,這就需要在核心路由器上進(jìn)行調(diào)整,這時有個現(xiàn)成的腳本就可以自動執(zhí)行,達(dá)到快速切換的目的。數(shù)據(jù)中心還應(yīng)該準(zhǔn)備很多其它工作的腳本,以便緊急的時候快速使用。
鄭州騰佑科技有著12年豐富的IDC(服務(wù)器租用/服務(wù)器托管)從業(yè)經(jīng)驗/云計算服務(wù)提供商·IDC運營專家·2018年成為百度云河南指定服務(wù)中心。鄭州騰佑科技是鄭州專業(yè)的IDC服務(wù)商,真正7*24小時技術(shù)支持,機(jī)房技術(shù)。電信、聯(lián)通(網(wǎng)通|)、雙線、BGP多線機(jī)房遍布全國,給您提供性價比高的最優(yōu)布點方案!如您想要服務(wù)器托管可以找我們哦。