在拉斯維加斯舉辦的年度技術(shù)盛會(huì)上,亞馬遜云計(jì)算部門(AWS)正式推出了新一代自研AI芯片Trainium3,并同步展示了為下一代AI工作負(fù)載設(shè)計(jì)的Trainium3 UltraServers。與此同時(shí),AWS還公布了Trainium4的研發(fā)路線圖,引發(fā)行業(yè)高度關(guān)注。
為滿足自身需求并降低運(yùn)營成本,亞馬遜、谷歌等云服務(wù)巨頭早在數(shù)年前便開始布局自研云端AI芯片。據(jù)AWS披露,其定制芯片業(yè)務(wù)規(guī)模已達(dá)數(shù)十億美元,Trainium系列芯片全球部署量突破100萬張,成為支撐超大規(guī)模AI計(jì)算的核心基礎(chǔ)設(shè)施之一,僅次谷歌TPU的市場表現(xiàn)。這一數(shù)據(jù)印證了自研芯片在云服務(wù)領(lǐng)域的戰(zhàn)略價(jià)值。
Trainium3基于臺(tái)積電3nm制程工藝打造,單芯片可提供2.52 PFLOPs(FP8)算力,支持FP32、BF16、MXFP8及新增MXFP4等多種精度格式。內(nèi)存配置方面,該芯片將HBM3e容量提升至144GB,帶寬達(dá)4.9TB/s,并通過強(qiáng)化結(jié)構(gòu)化稀疏性及微縮放硬件支持,顯著優(yōu)化了大語言模型的訓(xùn)練與推理效率。AWS宣稱,Trainium3可將AI模型全生命周期成本降低50%,為客戶提供更具性價(jià)比的算力服務(wù)。
基于全新Neuron Fabric互聯(lián)技術(shù),AWS同步推出的Trainium3 UltraServers實(shí)現(xiàn)了算力躍升。該系統(tǒng)最多可整合144顆Trainium3芯片,總算力達(dá)362 FP8 PFLOPs。實(shí)測數(shù)據(jù)顯示,與上一代Trainium2 UltraServers相比,新系統(tǒng)的原始性能提升4.4倍,性能功耗比提升4倍,能源效率提高40%。在部署GPT-OSS等主流開源模型時(shí),單芯片吞吐量提升3倍,響應(yīng)延遲縮短4倍,大幅縮短模型訓(xùn)練周期——原本需數(shù)月的任務(wù)可壓縮至數(shù)周,同時(shí)支持更多推理請(qǐng)求,降低項(xiàng)目上線時(shí)間與運(yùn)營成本。
通過EC2 UltraClusters 3.0架構(gòu),Trainium3 UltraServers可擴(kuò)展至最高100萬張芯片的超級(jí)集群,規(guī)模較上一代提升10倍。目前,該架構(gòu)已為Anthropic的“Project Rainier”項(xiàng)目提供核心算力支撐,當(dāng)前部署50萬張Trainium 2芯片,并計(jì)劃年底前擴(kuò)容至100萬張。這一擴(kuò)展能力進(jìn)一步鞏固了AWS在超大規(guī)模AI計(jì)算領(lǐng)域的領(lǐng)先地位。
實(shí)際應(yīng)用中,Trainium3及Trainium3 UltraServers已展現(xiàn)顯著成效。Anthropic、Karakuri、metagenomi、NetoAI、Ricoh、Splash Music等企業(yè)反饋,采用該方案后訓(xùn)練成本較其他方案最多降低50%。這一成果驗(yàn)證了AWS自研芯片在商業(yè)化場景中的競爭力。
關(guān)于下一代產(chǎn)品,AWS透露Trainium4正在研發(fā)中,雖未公布具體發(fā)布時(shí)間,但承諾其性能將實(shí)現(xiàn)突破性提升:FP4處理性能至少提升6倍,F(xiàn)P8性能提升3倍,內(nèi)存頻寬提高4倍。更值得關(guān)注的是,Trainium4將支持NVIDIA NVLink Fusion高速互連技術(shù),可與Graviton處理器及EFA(Elastic Fabric Adapter)在通用MGX機(jī)架中無縫協(xié)作,實(shí)現(xiàn)與NVIDIA GPU的互操作與性能擴(kuò)展。這一技術(shù)整合或?yàn)锳I計(jì)算生態(tài)帶來新的變量。















