簡(jiǎn)述:隨著數(shù)據(jù)的爆炸式增長(zhǎng),各個(gè)領(lǐng)域?qū)τ?jì)算機(jī)硬件的處理能力有了更高的要求。相比于CPU和GPU等計(jì)算設(shè)備的快速發(fā)展,傳統(tǒng)的以太網(wǎng)領(lǐng)域發(fā)展明顯滯后并逐漸成為性能瓶頸。大量產(chǎn)品線都希望改善網(wǎng)絡(luò)性能,通過(guò)使用更高帶寬,更低延遲的網(wǎng)絡(luò)來(lái)提升業(yè)務(wù)能力。對(duì)奮
由于信息的爆發(fā)式提高,各行各業(yè)對(duì)計(jì)算機(jī)系統(tǒng)的處理能力擁有更高的需要。相較于CPU和GPU等測(cè)算機(jī)器設(shè)備的迅速發(fā)展,傳統(tǒng)式的以太網(wǎng)接口行業(yè)發(fā)展趨勢(shì)顯著落后并漸漸變成特性短板。很多產(chǎn)品系列都期待改進(jìn)互聯(lián)網(wǎng)特性,根據(jù)應(yīng)用更帶寬測(cè)試,更低延遲的互聯(lián)網(wǎng)來(lái)提升業(yè)務(wù)能力。
對(duì)奮戰(zhàn)在一線攻城略地師而言,經(jīng)常會(huì)出現(xiàn)這種體會(huì)
為何傳送數(shù)據(jù)要花那么長(zhǎng)期?為何計(jì)算水平這么牛的網(wǎng)絡(luò)服務(wù)器老是要長(zhǎng)期等候數(shù)據(jù)傳輸進(jìn)行?為什么網(wǎng)絡(luò)能肆無(wú)忌憚的拉后腿?
一下子想更換它有沒(méi)有?
文中將產(chǎn)生RDMA性能卓越互聯(lián)網(wǎng),剖析特性優(yōu)點(diǎn),詳細(xì)介紹在機(jī)器學(xué)習(xí)算法行業(yè)的實(shí)踐,還有下一步的設(shè)想。表明:文中關(guān)鍵論述RDMA技術(shù)性造成的環(huán)境和應(yīng)用領(lǐng)域、實(shí)例,有關(guān)RDMA深層技術(shù)原理,請(qǐng)參考“詳細(xì)說(shuō)明RDMA(遠(yuǎn)程控制立即運(yùn)行內(nèi)存瀏覽)構(gòu)架基本原理”文章內(nèi)容。
什么叫RDMA性能卓越互聯(lián)網(wǎng)
提及互聯(lián)網(wǎng),我相信我們的腦子里馬上會(huì)閃過(guò)OSI七層模型,HTTP、TCP和IP這種關(guān)鍵詞??墒俏闹兄袛⑹鍪侵噶硗庖环N互聯(lián)網(wǎng):RDMA(RemoteDirectMemoryAccess)。
最先詳細(xì)介紹DMA,做為主機(jī)內(nèi)存和外圍設(shè)備中間傳送數(shù)據(jù)的一種形式,系統(tǒng)軟件將運(yùn)行內(nèi)存做了虛擬注冊(cè)地址和物理學(xué)地址映射以后,就把傳輸數(shù)據(jù)的主動(dòng)權(quán)交到了外圍設(shè)備的DMA控制板,隨后每一個(gè)傳輸數(shù)據(jù)實(shí)際操作都由外圍設(shè)備來(lái)進(jìn)行。那樣可以產(chǎn)生一個(gè)非常大的優(yōu)勢(shì)是節(jié)約了CPU網(wǎng)絡(luò)資源。
所說(shuō)RDMA,還可以簡(jiǎn)易了解為使用相應(yīng)的硬件配置和互聯(lián)網(wǎng)技術(shù),網(wǎng)絡(luò)服務(wù)器1的網(wǎng)口能直接讀寫能力另一個(gè)網(wǎng)絡(luò)服務(wù)器2的運(yùn)行內(nèi)存,最后做到帶寬測(cè)試,低延遲和低資源利用率的實(shí)際效果。如圖所示,應(yīng)用軟件不用參加傳輸數(shù)據(jù)全過(guò)程,只必須特定運(yùn)行內(nèi)存讀寫能力詳細(xì)地址,打開(kāi)傳送并等候傳送進(jìn)行就可以。
以便便捷大伙兒更強(qiáng)的了解,小編畫(huà)了一張簡(jiǎn)單的結(jié)構(gòu)圖來(lái)比照RDMA和傳統(tǒng)式TCP/IP網(wǎng)絡(luò)在Server端傳送數(shù)據(jù)的數(shù)據(jù)通路。能夠看見(jiàn),RDMA的特性優(yōu)點(diǎn)具體表現(xiàn)在下述一些層面。
ZeroCopy:降低數(shù)據(jù)拷貝頻次。因?yàn)闆](méi)將數(shù)據(jù)拷貝到內(nèi)核態(tài)并解決數(shù)據(jù)文件頭頂部的全過(guò)程,傳輸延遲會(huì)明顯降低。
KernelBypass和ProtocolOffload:不用核心參加。數(shù)據(jù)通路中并沒(méi)有繁雜的解決報(bào)頭邏輯性,不但會(huì)讓延遲時(shí)間減少,同時(shí)也大大的減少了CPU的的資源。
RDMA并不是最近幾年才明確提出,實(shí)際上最開(kāi)始完成RDMA的網(wǎng)絡(luò)層協(xié)議Infiniband早就運(yùn)用到大數(shù)據(jù)處理中??墒荌nfinband和傳統(tǒng)式TCP/IP網(wǎng)絡(luò)對(duì)比差別特別大,必須專用型的硬件配置,擔(dān)負(fù)價(jià)格昂貴的價(jià)錢,而且會(huì)大大增加運(yùn)維管理人工成本。
那樣,是不是有合適傳統(tǒng)式大數(shù)據(jù)中心的RDMA互聯(lián)網(wǎng)?
現(xiàn)階段適用以太網(wǎng)接口的RDMA協(xié)議書(shū)目的是為了RoCE(RDMAoverConvergedEthernet)和iWARP(InternetWideAreaRDMAProtocol),系統(tǒng)部同學(xué)們根據(jù)特性、易用性等各個(gè)方面的考察后,最后引進(jìn)了RoCE互聯(lián)網(wǎng)。RoCE和Infiniband的特性基本上相仿,并且比iWARP產(chǎn)業(yè)生態(tài)更為完善,流行網(wǎng)口生產(chǎn)商早已適用。
此外,RoCE互聯(lián)網(wǎng)在數(shù)據(jù)鏈路層適用規(guī)范以太網(wǎng)接口協(xié)議書(shū),在傳輸層上適用IP協(xié)議,因而能夠無(wú)縫拼接結(jié)合到目前的IDC環(huán)境中,布署便捷;次之因?yàn)镽oCE互聯(lián)網(wǎng)適用規(guī)范以太網(wǎng)接口和IP協(xié)議,更為便捷運(yùn)維管理,并且設(shè)備成本更低。
性能卓越互聯(lián)網(wǎng)為什么這么關(guān)鍵
講了那么多,很有可能有朋友問(wèn),特性可以究竟可以提高多少呢?放到目前的硬件條件下是不是可以獲得立即見(jiàn)效的作用?
以便便捷大伙兒迅速的了解,小編畫(huà)了下邊一張圖用數(shù)據(jù)信息來(lái)做品牌形象的表明。
從體系結(jié)構(gòu)上而言,互聯(lián)網(wǎng)處在硬盤特性以上,主存特性下。如圖所示,現(xiàn)階段服務(wù)器內(nèi)存越來(lái)越大降低了計(jì)算過(guò)程中存放的工作壓力,因而互聯(lián)網(wǎng)在較大水平上變成了特性短板。性能互聯(lián)網(wǎng)和萬(wàn)兆以太網(wǎng)對(duì)比,網(wǎng)絡(luò)帶寬提升了1個(gè)量級(jí),小數(shù)據(jù)文件的傳輸延遲也是提升了1-2個(gè)量級(jí)。
怎么使用性能卓越互聯(lián)網(wǎng)
那樣性能卓越互聯(lián)網(wǎng)的便捷性怎樣?是否立即換上硬件配置就可把程序流程放上去用了?我此次只有實(shí)事求是的得出一次負(fù)面情緒:大部分目前程序流程全是必須作移殖的。
為什么不行?是否有解決方案?
RDMA在特性上對(duì)比傳統(tǒng)式TCP/IP網(wǎng)絡(luò)有非常大的提高,但應(yīng)用上卻并沒(méi)TCP/IP便捷?,F(xiàn)階段在大數(shù)據(jù)處理中應(yīng)用最廣泛的方法是MPI(MessagePassingInterface),這個(gè)方法可以不錯(cuò)的掌控機(jī)器學(xué)習(xí)算法有關(guān)的運(yùn)用,不過(guò)因?yàn)樽约旱南拗菩?,在許多其他業(yè)務(wù)上根本無(wú)法有效的運(yùn)用。是為了更好的在企業(yè)的設(shè)備掌握業(yè)務(wù)中應(yīng)用,系統(tǒng)部同學(xué)們協(xié)同深度神經(jīng)網(wǎng)絡(luò)試驗(yàn)室同學(xué)們開(kāi)發(fā)設(shè)計(jì)了一個(gè)相近Socket的程序編寫插口,在提升性能的與此同時(shí),大幅度降低了系統(tǒng)在RDMA網(wǎng)絡(luò)上的種植難度系數(shù)。
RDMA在搜索引擎的使用情況
我相信見(jiàn)到這兒,有一些同學(xué)們?cè)缫延袣g呼雀躍的激情了。當(dāng)做中國(guó)最高度重視新技術(shù)的互聯(lián)網(wǎng)企業(yè),我司的同學(xué)們自然不容易放了此項(xiàng)新技術(shù)應(yīng)用,必定要用來(lái)消化吸收消化,隨后為己所用。
企業(yè)在2014年前后左右逐漸引進(jìn)RDMA互聯(lián)網(wǎng),依次布署了lnfinband群集和RoCEv1集群。2015年,百度搜索各自在SZWG主機(jī)房和YQ01機(jī)房規(guī)模性布署了RoCEv2群集,各自承載了深度神經(jīng)網(wǎng)絡(luò),語(yǔ)音識(shí)別技術(shù)和模式識(shí)別等相應(yīng)的機(jī)器學(xué)習(xí)算法每日任務(wù)?,F(xiàn)階段RDMA群集整體范圍為600臺(tái)上下,這也是國(guó)內(nèi)最大的一個(gè)RoCEv2互聯(lián)網(wǎng)。
RDMA對(duì)比傳統(tǒng)式TCP/IP網(wǎng)絡(luò)有帶寬測(cè)試、低延遲和低CPU占用量等特點(diǎn),已深受機(jī)器學(xué)習(xí)算法每日任務(wù)的親睞。在其中語(yǔ)音識(shí)別技術(shù)練習(xí)和NLP翻譯機(jī)器,應(yīng)用OpenMPI作為基本庫(kù),40GRDMA通訊特性相對(duì)于10GTCP網(wǎng)絡(luò)提升了1個(gè)量級(jí)。Paddle圖像練習(xí)應(yīng)用類Socket庫(kù),也是有非常好的特性盈利。以便更為形象化的了解,針對(duì)OpenMPIBenchMark,40GRDMA相對(duì)于10GTCP可以加速1-2個(gè)量級(jí)。
除開(kāi)機(jī)器學(xué)習(xí)算法行業(yè),RDMA互聯(lián)網(wǎng)能不能在其它行業(yè)獲得非常好的作用呢?
現(xiàn)階段系統(tǒng)部的朋友已經(jīng)積極主動(dòng)調(diào)查RDMA互聯(lián)網(wǎng)在其它行業(yè)里的應(yīng)用,大概包括了如下所示好多個(gè)層面。
1.為分布式存儲(chǔ)和計(jì)算系統(tǒng)加快,靈活運(yùn)用帶寬測(cè)試低延遲及其釋放出來(lái)CPU通訊解決。
現(xiàn)階段業(yè)界許多企業(yè)已經(jīng)開(kāi)始探尋RDMA在儲(chǔ)存里的運(yùn)用,包含iSCSI,SamBa,NVMe,Hadoop這些。系統(tǒng)部的同學(xué)們還會(huì)融合企業(yè)不同業(yè)務(wù)流程對(duì)儲(chǔ)存的要求狀況來(lái)完成探尋。
2.為GPU異構(gòu)計(jì)算通訊加快,靈活運(yùn)用ZeroCopy的特點(diǎn),降低數(shù)據(jù)通路里的副本頻次,大幅度降低GPU中間的傳輸延遲。
GDR此項(xiàng)技術(shù)性從2014年起就一直在跟蹤服務(wù),以前因?yàn)橄嚓P(guān)的技術(shù)性緣故一直沒(méi)有運(yùn)用到具體的業(yè)務(wù)流程中。由于這種技術(shù)性難題持續(xù)得到解決,這一技術(shù)性已經(jīng)逐步走向成熟。從全新的測(cè)試結(jié)果看來(lái),OpenMPI GDR的方法可以大幅度降低跨連接點(diǎn)GPU的傳輸延遲,并且傳輸帶寬也可以貼近速度限制,堅(jiān)信沒(méi)多久就可在實(shí)踐應(yīng)用中為異構(gòu)計(jì)算加速。
3.為基礎(chǔ)服務(wù)加快,因?yàn)镽DMA互聯(lián)網(wǎng)和傳統(tǒng)式大數(shù)據(jù)中心的完美融合。
將來(lái)會(huì)逐步營(yíng)銷推廣至企業(yè)的各類業(yè)務(wù)流程中,為各類基本互聯(lián)網(wǎng)服務(wù)加快。自然,系統(tǒng)部的產(chǎn)品研發(fā)同學(xué)們還會(huì)給予應(yīng)用更方便的網(wǎng)線端口為各類業(yè)務(wù)服務(wù)。
由來(lái):微信公眾平臺(tái)系統(tǒng)架構(gòu)師技術(shù)性同盟、創(chuàng)作者:晗狄
騰佑科技(m.mubashirfilms.com)成立于2009年,總部位于河南鄭州,是一家集互聯(lián)網(wǎng)基礎(chǔ)設(shè)施及軟硬件于一體化的高新技術(shù)企業(yè),具有IDC/ISP/ICP/云牌照、雙軟等資質(zhì),并擁有多個(gè)國(guó)家版權(quán)局認(rèn)證。公司自成立以來(lái),一直致力于發(fā)展互聯(lián)網(wǎng)IDC數(shù)據(jù)中心DataCenter、云計(jì)算Cloud、大數(shù)據(jù)BigDate、人工智能AI、內(nèi)容加速CDN、互聯(lián)網(wǎng)安全、軟件定制開(kāi)發(fā)等產(chǎn)品服務(wù)及行業(yè)客戶技術(shù)一體化智能解決方案;2018年成為百度智能云AI河南服務(wù)中心。
售前咨詢熱線:400-996-8756
備案提交:0371-89913068
售后客服:0371-89913000
搜索詞
熱門產(chǎn)品推薦