在AI技術(shù)飛速發(fā)展的當(dāng)下,算力已成為推動(dòng)行業(yè)前進(jìn)的核心動(dòng)力。提到算力,英偉達(dá)的顯卡總是繞不開的話題。然而,要讓這些顯卡真正發(fā)揮效能,并非簡單的硬件安裝就能實(shí)現(xiàn),背后需要一套完善的軟件和算法支持。CUDA,作為英偉達(dá)精心打造的軟件生態(tài),正是其穩(wěn)固市場地位的關(guān)鍵所在。近日,CUDA迎來了13.1版本的重大更新,這一版本被英偉達(dá)譽(yù)為自2006年發(fā)布以來最具里程碑意義的功能拓展。
此次更新中,英偉達(dá)推出了全新的CUDA Tile編程模型,并配套了一系列工具、文檔和調(diào)度特性。這一創(chuàng)新引起了半導(dǎo)體及AI領(lǐng)域的廣泛關(guān)注,不少專家認(rèn)為它將深刻改變整個(gè)行業(yè)格局。那么,一個(gè)編程模型的更新,為何能引發(fā)如此大的反響?
CUDA Tile的引入,標(biāo)志著“模塊化”編程時(shí)代的到來。過去,使用CUDA進(jìn)行編程需要開發(fā)者自行管理核心變量、手動(dòng)分配內(nèi)存參數(shù),并按照SIMT模型進(jìn)行編程。而CUDA Tile則簡化了這一過程,它將數(shù)據(jù)在算法層面切割成獨(dú)立的矩陣塊,開發(fā)者只需針對這些矩陣塊的用途進(jìn)行編程,無需再操心后續(xù)的運(yùn)轉(zhuǎn)和專用計(jì)算單元的調(diào)用,這些工作將由編譯器和運(yùn)行時(shí)系統(tǒng)自動(dòng)完成。
為了支撐CUDA Tile,英偉達(dá)在13.1版本中引入了新的虛擬指令集CUDA Tile IR,并提供了cuTile Python這一DSL。這使得開發(fā)者能夠用熟悉的Python語言編寫矩陣塊內(nèi)核,再由Tile IR負(fù)責(zé)將其映射到底層硬件。這種做法在計(jì)算行業(yè)并不罕見,華為、阿里等企業(yè)也在采用類似的圖塊化編程技術(shù)來優(yōu)化計(jì)算效率。
除了CUDA Tile,13.1版本還對基礎(chǔ)功能模塊進(jìn)行了優(yōu)化。例如,新的Green Contexts技術(shù)讓GPU的SM能夠根據(jù)實(shí)際運(yùn)行指令進(jìn)行資源分割,優(yōu)先滿足低時(shí)延任務(wù)的需求,從而提升了云服務(wù)器對在線服務(wù)的支持能力。同時(shí),Multi-Process Service也得到了增強(qiáng),引入了MLOPart分區(qū)和靜態(tài)SM分區(qū)模式,使得多進(jìn)程共享GPU資源時(shí)能夠得到更準(zhǔn)確的資源劃分,這對于AI大模型這類混合負(fù)載為主的計(jì)算需求尤為重要。
英偉達(dá)還對數(shù)學(xué)庫和工具鏈進(jìn)行了全面升級。cuBLAS現(xiàn)在能夠提供基于Tensor Core的FP32/FP64仿真GEMM,支持在Blackwell等GPU上加速雙精度矩陣運(yùn)算,進(jìn)一步提升了主流AI模型的性能。這一系列更新使得CUDA 13.1幾乎從頭到尾都進(jìn)行了革新,開發(fā)者們紛紛用“新時(shí)代的到來”來形容這一版本。
對于AI行業(yè)而言,CUDA 13.1的更新意味著開發(fā)門檻的顯著降低。過去,編寫CUDA庫和工具需要開發(fā)者具備極高的知識儲備和調(diào)試能力,而現(xiàn)在,開發(fā)者只需決定子系統(tǒng)的參數(shù)和功能,即可快速構(gòu)建完整的程序。這不僅降低了對開發(fā)者技能的要求,也加速了AI應(yīng)用的開發(fā)進(jìn)程。
然而,CUDA Tile的引入也引發(fā)了一些擔(dān)憂。有開發(fā)者擔(dān)心,一旦CUDA Tile的性能表現(xiàn)不如預(yù)期,深度調(diào)試將變得困難,因?yàn)殚_發(fā)者將面對的是抽象的Tile運(yùn)算,而非底層指令。但盡管如此,CUDA開發(fā)的簡易化趨勢已不可阻擋。英偉達(dá)在13.1版本中保留了傳統(tǒng)SIMT開發(fā)工具,為開發(fā)者提供了更多的選擇空間。
隨著CUDA 13.1的更新,AI生態(tài)大戰(zhàn)的序幕也悄然拉開。過去,AMD ROCm、Intel oneAPI以及中國廠商的自研GPU等,都在嘗試通過轉(zhuǎn)編譯來適配CUDA生態(tài)。然而,CUDA Tile的到來可能使得這一適配過程變得更加復(fù)雜。開發(fā)者一旦習(xí)慣使用Tile IR+cuTile進(jìn)行編程,將面臨從語法翻譯到編譯器重建的雙重挑戰(zhàn)。
不過,也有專家對此持不同觀點(diǎn)。傳奇芯片架構(gòu)師Jim Keller認(rèn)為,CUDA Tile可能會加速CUDA護(hù)城河的消失。他指出,CUDA的優(yōu)勢在于其完善的庫和框架,但過高的上手門檻限制了其普及。而CUDA Tile將使得Tiling成為CUDA生態(tài)的主流,而業(yè)界大多數(shù)主流AI生態(tài)早已轉(zhuǎn)向Tiling。因此,只需解決CUDA Tile代碼與其他Tiling體系之間的互譯問題,開發(fā)者就能輕松將CUDA軟件移植到其他AI芯片生態(tài)中。
在這場AI生態(tài)大戰(zhàn)中,英偉達(dá)希望進(jìn)一步加深與AI行業(yè)的捆綁,而其他廠商則需要在追趕CUDA生態(tài)的同時(shí)構(gòu)筑自己的護(hù)城河。無論結(jié)果如何,接下來的幾年里,圍繞AI生態(tài)展開的博弈都將變得更加激烈。在這場沒有硝煙的戰(zhàn)爭中,誰能夠脫穎而出,成為最終的贏家,仍需時(shí)間來揭曉。















