當(dāng)前位置:首頁 >  IDC >  云計(jì)算 >  正文

想把超算用得好,總共分幾步?

 2018-05-25 10:41  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過

大嘴哥最近看人民日?qǐng)?bào)的新聞,說是“天河”系列超算要升級(jí)了,升級(jí)之后的系統(tǒng)是原天河系統(tǒng)性能的200倍以上。

200倍,這是一個(gè)駭人聽聞的數(shù)字。當(dāng)然隨后我就這個(gè)問題向受訪嘉賓求證過,嘉賓表示文章的理解有誤,但是可以肯定的是,最新最快的超級(jí)計(jì)算機(jī)正在研發(fā)中,而其目標(biāo)也是超算行業(yè)的新的高峰——百億億次。

雖然百億億次的目標(biāo)現(xiàn)在看起來還比較遙遠(yuǎn),雖然目前我們還只有面向這個(gè)目標(biāo)的“原型機(jī)”,但是在未來的某一天,比如2020年或者某個(gè)時(shí)間點(diǎn),百億億次終將會(huì)到來。而面對(duì)如此高速而復(fù)雜的系統(tǒng),我們除了要解決“能耗墻”、“應(yīng)用墻”等難題之外,也面臨著如何將系統(tǒng)利用好的問題。

1.jpg

“有沒有”和“好不好”,這是一個(gè)問題的兩個(gè)階段?,F(xiàn)在看來,通過天河和神威系列超級(jí)計(jì)算機(jī),我們已經(jīng)解決了“有沒有”的問題,廣州、中科院、長沙、無錫幾大超算中心的設(shè)備都是行業(yè)內(nèi)首屈一指的平臺(tái)。但是在“好不好”這個(gè)問題上,無論是各大科研院所還是各地的高校機(jī)構(gòu),恐怕都沒有拍著胸脯的保證。

既然叫做“好”,就得有個(gè)衡量的標(biāo)準(zhǔn)。就好比我們提到的幾大超算中心,許多人都有應(yīng)用超算的經(jīng)驗(yàn),但是機(jī)器用得效果如何,則是見仁見智。甚至對(duì)于許多人來說,能把應(yīng)用跑起來,就已經(jīng)算是勝利了。

超算應(yīng)用第一步:先把程序理順了

“我們這些人,講起基因測(cè)序和蛋白質(zhì)折疊可以頭頭是道,但是搞計(jì)算機(jī),特別是搞清楚那些代碼和應(yīng)用指令,真是太難了”,在我采訪過的高校教師中,許多人都有著類似的體會(huì)。搞清楚自己的專業(yè)知識(shí)是理所應(yīng)當(dāng)?shù)模菍⑦@些專業(yè)知識(shí)轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別的語言,這顯然超出了他們的業(yè)務(wù)范圍。更重要的是,在投身于專業(yè)研究的同時(shí),他們還需要抽出大量的時(shí)間去進(jìn)行計(jì)算機(jī)語言的學(xué)習(xí)。

這顯然不現(xiàn)實(shí),卻又無可奈何。我認(rèn)識(shí)的老師中,許多人都是自學(xué)了計(jì)算機(jī)編程的相關(guān)知識(shí),也有老師借助于計(jì)算機(jī)專業(yè)同行的支持,完成手頭的項(xiàng)目。但是不管怎么說,這都是一件勞心勞力的事情,而且坦率來說這部分內(nèi)容對(duì)于專業(yè)的科研應(yīng)用并非有多大的幫助。能否將項(xiàng)目優(yōu)化的內(nèi)容交給專業(yè)的人來實(shí)現(xiàn),讓程序的優(yōu)化變得又快又好。我相信,這是許多老師關(guān)心的問題。

超算應(yīng)用第二步:再把程序跑起來

在經(jīng)一番努力之后,許多老師都已經(jīng)將原有的專業(yè)技術(shù)問題轉(zhuǎn)換成了計(jì)算機(jī)語言和模型,進(jìn)而可以在超算平臺(tái)上運(yùn)行起來。只是在運(yùn)行的時(shí)候他們發(fā)現(xiàn),無論是廣州超算或者無錫超算抑或其他平臺(tái),想要達(dá)到最佳的運(yùn)行效率還是要對(duì)原有的程序進(jìn)行針對(duì)性的優(yōu)化。

這其中,不同的平臺(tái)可能采用了不同的加速設(shè)備,有些采用的是英特爾的至強(qiáng)融核處理器,有些用的是英偉達(dá)的GPU,甚至像無錫超算的神威太湖之光還用的是自主研發(fā)的申威平臺(tái)。因此,對(duì)于不同的加速設(shè)備,進(jìn)行優(yōu)化不僅是程序的需求,更是擺在老師面前的一道難題。當(dāng)程序真正的實(shí)現(xiàn)并行化,讓所有的處理器核心都能夠高負(fù)載運(yùn)行,這才是超級(jí)計(jì)算應(yīng)有的模樣。

但是,說起來容易做起來難。那么多行的程序代碼,對(duì)于大部分不熟悉計(jì)算機(jī)的老師來說,應(yīng)該如何優(yōu)化呢?

    超算應(yīng)用第三步:網(wǎng)絡(luò)優(yōu)化很重要

剛剛提到了一位研究蛋白質(zhì)折疊的老師,他面臨的不僅僅是程序應(yīng)用與模型搭建的問題,更有數(shù)據(jù)傳輸?shù)碾y題。其實(shí)對(duì)于各個(gè)學(xué)科來說,需要超級(jí)計(jì)算機(jī)來分析和處理的應(yīng)用模型都不會(huì)很小的量級(jí),這也意味著如果通過網(wǎng)絡(luò)上傳到超算中心的話,可能需要漫長的時(shí)光。幾天或者幾個(gè)星期,這也都是有可能的。

更有甚者,類似大氣物理、地質(zhì)勘探等數(shù)據(jù),都是以TB級(jí)的標(biāo)準(zhǔn)來衡量的,因此數(shù)據(jù)傳輸對(duì)于老師來說不僅僅需要耗費(fèi)漫長的時(shí)間,而且從超算中心獲取數(shù)據(jù)也需要網(wǎng)絡(luò)的下載支持。這一來一回,可能比計(jì)算本身的時(shí)間要多得多,因此許多老師希望能夠通過遠(yuǎn)程可視化操作,實(shí)時(shí)獲得結(jié)果的反饋,這樣也方便對(duì)計(jì)算模型進(jìn)行調(diào)整。否則空耗時(shí)間不說,這背后都是海量的機(jī)時(shí)和高昂的費(fèi)用。

那么,是否可以通過遠(yuǎn)程可視化化的方式減少等待的時(shí)間,對(duì)于超大容量的數(shù)據(jù),有什么更加高效、便捷的傳輸方式嗎?

超算應(yīng)用第四步:數(shù)據(jù)管理怎么辦

數(shù)據(jù)管理可以說是超算應(yīng)用的終極目標(biāo),也是最關(guān)鍵的步驟。在此之前,經(jīng)過了程序的優(yōu)化,模型的創(chuàng)建,數(shù)據(jù)也上傳到了超算中心進(jìn)行運(yùn)算,可以獲得實(shí)時(shí)反饋的結(jié)果。但是如何管理這些結(jié)果,如果是一個(gè)項(xiàng)目還好說;但是大部分老師都有幾個(gè)程序同時(shí)再跑,如何檢測(cè)每個(gè)程序的運(yùn)行情況,當(dāng)程序運(yùn)行錯(cuò)誤的時(shí)間如何能夠及時(shí)得到告警和反饋,這些問題都是老師們特別關(guān)心的內(nèi)容。

其實(shí)在IT運(yùn)維領(lǐng)域,自動(dòng)化運(yùn)維的概念已經(jīng)盛行了好長時(shí)間,也有許多解決方案可以借鑒。但是對(duì)于超算中心來說,由于平臺(tái)的特殊性和應(yīng)用的針對(duì)性,僅憑用戶個(gè)人很難對(duì)所有的程序進(jìn)行有效的監(jiān)管,在出現(xiàn)錯(cuò)誤的時(shí)候也很難第一時(shí)間獲得報(bào)警。畢竟老師們還有很多工作去做,一動(dòng)不動(dòng)的盯在屏幕前檢測(cè)系統(tǒng)狀態(tài)并不現(xiàn)實(shí),所以這個(gè)時(shí)候,智能化的系統(tǒng)就顯得尤為重要。

不僅如此,當(dāng)一段時(shí)間之后,某位老師想了解到自身的應(yīng)用情況,或者項(xiàng)目結(jié)束后需要提供對(duì)應(yīng)的數(shù)據(jù)報(bào)告,這些事情都應(yīng)該是系統(tǒng)自動(dòng)完成的。如果依靠人力,依然是非常漫長而繁瑣的工作。

如果超算中心也能提供一鍵生成報(bào)告的功能就好了,你說是不是?

這就是絕大部分人眼中超算應(yīng)用的難題。當(dāng)然,許多牛人可以解決其中的某一個(gè)或者幾個(gè)步驟,但是從建模到上傳,從計(jì)算到生成報(bào)告,能夠完成這些操作實(shí)屬不易。有句話說,讓專業(yè)的人做專業(yè)的事兒,有家叫做并行科技的公司推出了一款名為“超算云服務(wù)”的業(yè)務(wù)體系,完美解決了廣大老師的需求痛點(diǎn)。

不熟悉計(jì)算機(jī)語言,不懂如何建模?——不要緊,并行科技有專業(yè)的技術(shù)人員,可以提供724小時(shí)的專業(yè)貼心服務(wù),包括并不限于應(yīng)用程序編譯、安裝與使用指導(dǎo)、計(jì)算資源合理分配利用、運(yùn)行環(huán)境配置等內(nèi)容。當(dāng)然如果購買了高級(jí)服務(wù)的話,還會(huì)獲得諸如檢測(cè)應(yīng)用運(yùn)行使用資源分配、作業(yè)問題解答、定制化腳本文件等更為詳細(xì)的內(nèi)容。

計(jì)算資源優(yōu)化不給力?——不要緊,并行科技與廣州、中科院、長沙、無錫等多家超算機(jī)構(gòu)合作,提供了包括英特爾至強(qiáng)胖節(jié)點(diǎn)、GPU加速器、MIC集群等多種計(jì)算資源,并且可以實(shí)現(xiàn)不同資源之間的共享等一系列應(yīng)用。當(dāng)然如果你成為VIP客戶的話,還可以獲得黑盒測(cè)試與黑盒優(yōu)化、計(jì)算平臺(tái)定制開發(fā)等高端定制服務(wù),從源頭上把脈超算應(yīng)用。

網(wǎng)絡(luò)傳輸速度太慢怎么辦?——不要緊,并行科技已經(jīng)在北京與廣州之間架設(shè)并行專線網(wǎng)絡(luò),優(yōu)化用戶到超算間的網(wǎng)絡(luò)鏈路,并支持電信、聯(lián)通、教育網(wǎng)等網(wǎng)絡(luò)運(yùn)營商。用戶可以隨時(shí)自動(dòng)匹配或手動(dòng)選擇鏈路,找到最適合自己的、延遲最低的選擇。而針對(duì)數(shù)據(jù)傳輸?shù)膯栴},并行科技通過遠(yuǎn)程可視化技術(shù),讓數(shù)據(jù)在超算處理,圖形在本地顯示,大幅提升工作效率。

如果你的數(shù)據(jù)的確是太大太多,并行科技還有一項(xiàng)名為“40TB大容量移動(dòng)盤柜”的黑科技,簡單說來就是通過駐場(chǎng)工程師幫助你把數(shù)據(jù)從本地安全運(yùn)送到超算中心,從而實(shí)現(xiàn)8小時(shí)送達(dá),24小時(shí)投入使用的“閃電”效率。貌似之前AWS就是這樣運(yùn)送海量數(shù)據(jù)的,而且聽說效果還不錯(cuò)哦!

多用戶海量數(shù)據(jù)管理,如何實(shí)現(xiàn)自動(dòng)化——說起數(shù)據(jù)管理,這可算是并行科技的老本行了,早在多年前并行科技推出的Paramon平臺(tái)就是針對(duì)超算管理專業(yè)軟件,這次升級(jí)到云端之后,它更可以提供桌面端和手機(jī)端的全方位支持,而且實(shí)現(xiàn)了一鍵便捷作業(yè)提交、實(shí)時(shí)查看作業(yè)運(yùn)行情況、診斷應(yīng)用性能問題和帳單匯總報(bào)告等多重功能,讓用戶的每一分錢都花得明明白白。

對(duì)了,說起花錢的問題,你肯定會(huì)問:既然并行科技提供了超算云這么好的服務(wù),可以實(shí)現(xiàn)超算應(yīng)用從建模到報(bào)告的一站式服務(wù),那么收費(fèi)肯定是非常昂貴的吧。其實(shí),大嘴哥最初也和你有同樣的想法。但是我從并行科技了解到的是,目前超算云服務(wù)的收費(fèi)標(biāo)準(zhǔn)與超算中心和各大云平臺(tái)是相同的。換句話說,無論你是單獨(dú)購買超算中心的機(jī)時(shí)還是通過并行超算云服務(wù)來購買機(jī)時(shí),花的錢都是一樣的,一樣的,一樣的。

那你可能會(huì)問,都是一樣的費(fèi)用,并行科技靠什么賺錢呢?這個(gè)問題回答起來有點(diǎn)難。但是想想各大補(bǔ)貼的APP,這難道不就是流行的互聯(lián)網(wǎng)思維嗎?

曾幾何時(shí),宋丹丹“把大象裝進(jìn)冰箱總共分幾步”的問題,結(jié)果讓人大跌眼鏡,出乎許多人意料的是答案就是這么簡單直接。如今,看似復(fù)雜的超算問題,在并行科技的超算云面前都已經(jīng)迎刃而解。如果你是用戶,同樣的預(yù)算下,你是選擇勞心勞力、繁瑣不已的老方法,還是愿意輕裝前行、一步上云呢?

超算應(yīng)用總共分幾步,這下你心中應(yīng)該有數(shù)了吧。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
大數(shù)據(jù)計(jì)算

相關(guān)文章

熱門排行

信息推薦