NVIDIA的2017規(guī)劃 整合"CPU到GPU中"?
10月28日 NVIDIA在中科院做了一個關于GPU計算的研討會,會上NVIDIA的CEO黃仁勛和首席科學家Bill Dally分別作了一個演講,黃仁勛的演講主要集中在GPU計算的現(xiàn)在,而Bill的演講更多地講到了GPU計算的未來可能發(fā)展的趨勢。按照Bill的說法,現(xiàn)在CPU的性能發(fā)展已經(jīng)進入到一個瓶頸階段,而未來的處理器將會主要采用并行處理器(如GPU)進一步提升性能。在演講后面有一個NVIDIA未來GPU的展望的一頁,里面說道在2017年ExaScale GPU的可能規(guī)模:
在300W的GPU中將整合2400個core,共有7200個FPU單元,性能將達到40T單精度浮點數(shù)和13T雙精度浮點數(shù)的量級。其實這個并不是最重要的,最重要的是這個演講顯示未來的NVIDIA的GPU中將會整合進多個CPU 或者多個CPU核心。
當然大家都知道NVIDIA并沒有CPU,因此其GPU會依賴于Intel和AMD的CPU以及他們的平臺。當然,NVIDIA的說法是CPU+GPU的異構計算系統(tǒng)才可以獲得最高的效率,但是問題沒有掌握CPU的資源就沒有掌握平臺,而且在大規(guī)模計算架構中,也需要混合部署CPU和GPU的服務器,計算密度難以提升。失去了平臺就會處處受制于人,比如Intel和AMD也可以通過平臺的規(guī)格來限制GPU的實際計算能力的發(fā)揮,比如簡單地將PCI-E的性能提升速度降低,就可以直接限制GPU和CPU的數(shù)據(jù)傳輸能力,從而限制GPU實際能力的發(fā)揮。
Fermi這一代的GPU實際上已經(jīng)具備了相當程度的CPU的特征,也有些人正在研究將Linux修改后直接運行在Fermi中,但是目前看起來絕大多數(shù)基于Fermi的平臺還是會采用傳統(tǒng)的CPU+GPU的模式,這就給Intel和AMD利用平臺的優(yōu)勢限制NVIDIA GPU的機會。要解決這個問題,有人正在研究使用ARM CPU+Fermi GPU的方案。ARM CPU的能力很弱,但是Fermi的可編程能力卻很強,因此可以讓ARM CPU的任務僅僅是跑OS、驅動程序和啟動Kernel,計算任務完全在Fermi GPU上跑,可以將很小體積的ARM系統(tǒng)直接整合到Fermi服務器中,從而獲得更高密度的部署并且解決CPU依賴的問題,ARM的低功耗還可以降低整個系統(tǒng)的功耗。不過這種方案的問題是ARM的計算和內(nèi)存等性能實在太弱,而且也沒有高性能的輸入輸出接口,PCI-E也需要專門的橋接芯片,相信這種方案僅僅適用于有限的應用中。
從長遠的角度來看,NVIDIA要解決CPU的依賴型的問題,具備自己的CPU是必然的事情。雖然在提問中我們問了Bill關于NVIDIA是否會在近期就在GPU內(nèi)整合CPU的問題,Bill用Tegra打起了太極,而且說明在現(xiàn)階段較難做到,但是并沒有否認下一步會這樣做。我們是否可以認為在下一代的NVIDIA GPU內(nèi)部會整合進一個或者幾個CPU核,從而徹底解決CPU依賴的問題呢?
雖然Intel和AMD都在推CPU整合GPU的方案,但是這些方案都是一個大CPU整合一個小GPU的方案,主要是提供低成本和低功耗的低端解決方案。而在未來一段時間GPU和CPU在基本架構上很難融合情況下,也許一個類似于Fermi這樣的大GPU整合進一個較小的CPU(比Larrabee的標量處理單元強,類似于主流CPU核),是面向高端圖形和高性能計算的一個新穎的思路。我相信沒有NVIDIA主動采取這樣的措施,Intel和AMD絕難這樣做,因為現(xiàn)在高端的CPU才是他們的最大收入和利潤來源。我們期望NVIDIA在未來繼續(xù)在計算機架構上進一步創(chuàng)新,這也許會給業(yè)界帶來一輪新的變革,否則持續(xù)保持現(xiàn)有的PC架構,則NVIDIA的路會越來越艱難