個人超級計算機不再是空穴來風
每秒運算速度達4萬億次、只有臺式機大小、售價不到8萬元的個人超級計算機,是夢望還是現(xiàn)實?NVIDIA公司剛剛發(fā)布的Tesla個人超級計算機似乎正在讓這一切成為可能。
11月18日,在美國2008年超級計算大會(SC08)上,NVIDIA公司正式發(fā)布了針對全球1500萬名科學家和工程師的Tesla個人超級計算機新產品,要“讓每個研究人員都可配備一臺超級計算機”。NVIDIA 公司Tesla計算產品總經理Andy Walch先生通過電話會議方式接受了IT168服務器頻道的采訪。
據(jù)介紹,Tesla個人超級計算機擁有“工作站的價格,超級計算機的性能,適合個人操作,非常簡單易用”等幾大特點。在外觀上就如同一臺可以放在桌面上的工作站一樣,內置一顆四核CPU 和3-4個GPU單元模塊,擁有12-16GB系統(tǒng)內存、1200-1350W電源,可以直接使用辦公環(huán)境下標準的電源。由于總共擁有960個GPU核心,使其浮點計算性能高達每秒4萬億次,是當前臺式工作站的250倍,而售價不到1萬美元,跟相同性能水平的傳統(tǒng)超級計算集群相比,價格只有1%。要知道,就在四年前,上海超級計算中心所采用的10萬億次超級計算機曙光4000A需要近億元人民幣,占地1/4個足球場。
性能提升 功耗降低 GPU計算有獨到之處
Andy Walch介紹說,Tesla個人超級計算機實現(xiàn)了人們“以工作站的價格和占地空間獲得超級計算集群性能”的夢想,開啟了個人高性能計算的新領域。“就象20多年以來,PC從早期的專家設備變成了今天人手一臺的普及工具一樣,我們相信從現(xiàn)在開始,個人超級計算機也可以走向普及”.
目前,這類臺式HPC產品已經在國外一些大學科研人員當中得到了采用。最早使用的是比利時安特衛(wèi)普大學,該校原來用的超級計算機有512顆處理器核,成本是530萬美元,由全校共享使用;后來換成一臺擁有8個GPU的臺式系統(tǒng),性能相當,成本只有7000美元,而且可以為每個研究人員在桌邊配備一臺,不再為共享資源進行競爭??梢姡瑹o論是在性價比方面,還是在使用模式上都跟以前相比有了“革命性”的變化。據(jù)稱,當前包括美國麻省理工學院、哈佛大學、伊利諾伊大學、英國劍橋大學、德國布倫瑞克里大學以及韓國延世大學都已經采用了3顆-16顆GPU不等的此類桌面系統(tǒng)。
全球高性能計算機TOP500排行榜的創(chuàng)始人之一、美國田納西大學教授Jack Dongarra認為,“GPU的發(fā)展使得實際應用程序可以在GPU上輕松運行,并且速度遠遠超過多核系統(tǒng)。未來的計算架構將是并行核心GPU和多核CPU合作的混合系統(tǒng)。”CRAY公司前首席科學家Burton Smith也認為,NVIDIA的異構計算使“臺式超級計算機”的突破成為可能。
實際上,在今年9月份,微軟和Cray兩家公司就首次聯(lián)手推出了大小和普通PC相當,售價2.5萬美元到6萬美元以上,預裝Windows HPC Server 2008操作系統(tǒng)的個人超級計算機Cray CX1。不過,跟NVIDIA采用的CPU與GPU混合架構不同,Cray CX1采用的是標準X86 CPU技術,支持多達8個節(jié)點、16個英特爾至強處理器、每節(jié)點64GB內存和4TB內置存儲。
不過,Andy Walch表示,跟傳統(tǒng)僅基于CPU的架構相比,CPU與GPU混合的架構在某些應用領域效率更高,數(shù)十倍甚至上百倍的性能提升正是GPU的最大優(yōu)勢。
Andy Walch舉例說,在一項針對計算化學的應用測試中,如果僅使用CPU需要4.6天,而使用GPU僅僅需要27分鐘,在神經醫(yī)學建模方面,使用CPU需要2.7天,而使用GPU只需要30分鐘,另外在醫(yī)學成像、分子動力學、視頻轉碼、Matlab計算、天體物理、金融模擬、線性代數(shù)、3D超聲波、量子化學、基因排序等領域,一些大學和相關軟件廠商的測試也證實了18倍到149倍不等的性能提升。
另外,在綠色節(jié)能方面,GPU系統(tǒng)也明顯的優(yōu)勢。如NVIDIA最新推出的Tesla S1070與X86產品相比,每瓦特性能提升了18倍。“這對石油天然氣勘探這類用戶來說非常重要,因為他們需要進行大量的數(shù)據(jù)分析,服務器電耗極其驚人,使用GPU系統(tǒng)可以節(jié)省大量的電力成本。目前Tesla S1070已經在Hess、雪佛龍石油、巴西石油等公司得到了成功應用。” Andy Walch談到。
CUDA發(fā)展良好 GUP計算生態(tài)圈初步形成
可見,雖然一般用戶已經非常熟悉傳統(tǒng)X86集群系統(tǒng)在HPC領域的使用模式,但是我們認為,CPU與GPU的混合系統(tǒng)也確實非常值得關注,用戶可以根據(jù)自己的實際應用進行測試比較。不過,值得一提的是,CPU系統(tǒng)畢竟已經非常成熟,現(xiàn)有應用軟件大多是針對CPU進行編寫的,而用GPU進行高性能計算還是一個新興的領域,特別是在GPU編程方面對于很多用戶來說仍是非常大的挑戰(zhàn)。
對此,NVIDIA公司表示,由于對GPU架構進行了根本性的改變,使其可以用C語言來編程,并推出了全球第一個針對GPU的并行編程環(huán)境CUDA,可以用于Windows及Linux。“CUDA在GPU多核并行計算中起到的作用就好比是軍隊里的將軍一樣,通過它來保證并行高效有序地實現(xiàn)。”跟CELL、FGPA以及其他GPU相比,CUDA環(huán)境支持已經成為NVIDIA GPU計算的一大優(yōu)勢,用戶借助CUDA可以更加方便地使用GPU計算。
Andy Walch此番還透露了CUDA推出一年多來在全球的發(fā)展情況:NVIDIA已經在全球賣出了1億顆以上支持CUDA的GPU產品,CUDA 開發(fā)人員超過了2.5萬人,全世界有50多所大學開設了CUDA課程,包括中國科學院、清華大學等。GPU計算的生態(tài)系統(tǒng)已經形成。
由于NVIDIA廣為人知的GPU產品是Geforce系列,雖然Geforce和Tesla都支持CUDA,但兩者在產品設計和適用環(huán)境仍然存有非常大的區(qū)別。Andy Walch解釋說,在產品設計上,Tesla的板載內存容量高達4GB,而Geforce只有1GB,前者可以大大減少數(shù)據(jù)傳輸量,可以實現(xiàn)更高的計算精度,另外前者由于針對企業(yè)級應用環(huán)境,在防燒毀等測試方面更加嚴格和全面。因此,對于一般性應用如視頻解碼、游戲等使用Geforce就可以,而對于科學計算應用如石油勘探、天氣預報等,建議采用計算精度和可靠性更高的Tesla。
在SC08上,PGI、Mathematica等專業(yè)軟件開發(fā)商演示了利用CUDA開發(fā)軟件并獲得性能極大提升的實例。NVIDIA還宣布,包括戴爾、華碩、NEC、Cray、布爾等合作伙伴后續(xù)將推出各自基于NVIDIA Tesla GPU處理器卡的個人HPC產品。
實際上,做個人高性能計算機的不僅僅是NVIDIA和Cray。早在2006年11月,泰安就在美國2006超級計算年會上推出了運算性能達256 GFLOPs的“TYPHOON臺風”600系列個人超級計算機。早幾年前,中科院計算所的李國杰院士也提出了“一萬塊錢購買一萬億次計算能力”的構想。到了2008年,在中科院計算所的支持下,曙光公司高調推出了pHPC100個人高性能計算機。在前不久舉行的2008年全國高性能計算學術年會上,中國科技大學陳國良院士也做了關于pHPC的主題報告,個人高性能計算機的概念得到了英特爾、AMD、曙光、寶德、超微等與會公司的認同。另外,從去年開始,IBM、HP、英特爾等都推出了所謂針對成長型中小企業(yè)的刀片服務器產品——IBM BladeCenter S、HP BladeSystem C3000、英特爾模塊化服務器,盡管沒有掛“個人超級計算機”的名頭,但高性能計算卻是這些產品的目標市場之一。由此可見,個人HPC早已經不再是一個空穴來風的概念,而是已經涌現(xiàn)出了許多實實在在的產品,高性能計算普及的夢想已經不再遙不可及。