近期,科技行業(yè)圍繞AI芯片的競爭愈發(fā)激烈。英偉達憑借GPU在AI訓(xùn)練領(lǐng)域的長期主導(dǎo)地位,始終占據(jù)市場焦點。然而,谷歌憑借自研的TPU(張量處理單元)芯片,正以獨特的技術(shù)路線和全棧整合能力,逐步改變這一格局。從最初為解決內(nèi)部計算效率問題而啟動的“救急項目”,到如今成為支撐谷歌AI戰(zhàn)略的核心基礎(chǔ)設(shè)施,TPU的十年發(fā)展歷程,折射出谷歌在AI時代的技術(shù)野心與商業(yè)布局。
TPU的誕生源于谷歌對深度學(xué)習(xí)規(guī)模化應(yīng)用的迫切需求。2015年,隨著深度學(xué)習(xí)在搜索、廣告等核心業(yè)務(wù)中的滲透率快速提升,谷歌工程團隊意識到,若全面采用GPU進行實時推理,全球數(shù)據(jù)中心的功耗將激增至難以承受的水平,成本也將呈指數(shù)級上升。彼時,GPU雖擅長訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò),但其架構(gòu)設(shè)計并未針對低延遲、高能效的推理場景優(yōu)化。谷歌內(nèi)部預(yù)測,若繼續(xù)依賴CPU和GPU的現(xiàn)有路線,數(shù)據(jù)中心電力成本將在未來十年增長十倍。這一現(xiàn)實壓力,迫使谷歌走上自研專用芯片的道路。
2016年,首款TPU v1正式投入使用,初期用于支持谷歌翻譯和部分搜索功能的矩陣運算。與通用GPU不同,TPU從設(shè)計之初便聚焦于特定計算任務(wù)的高效執(zhí)行,其核心的脈動陣列架構(gòu)專為矩陣乘法優(yōu)化,能效比傳統(tǒng)芯片顯著提升。2017年,Transformer架構(gòu)的提出進一步驗證了TPU的技術(shù)路線——這一新架構(gòu)的計算模式高度規(guī)則化,與TPU的硬件特性高度契合。谷歌隨即決定將TPU從單一芯片升級為覆蓋軟件框架、編譯器、芯片架構(gòu)、網(wǎng)絡(luò)拓撲和散熱系統(tǒng)的全棧解決方案,形成閉環(huán)生態(tài)。
從v2到v4,TPU逐步開放給谷歌云客戶,商業(yè)化進程加速。盡管早期生態(tài)兼容性不及GPU,但谷歌通過XLA編譯器、高效Pod架構(gòu)和液冷數(shù)據(jù)中心等技術(shù),構(gòu)建起差異化優(yōu)勢。2021年發(fā)布的TPU v4首次將4096顆芯片組成超節(jié)點,通過自研的環(huán)形拓撲網(wǎng)絡(luò)實現(xiàn)跨芯片通信的無損協(xié)同,使谷歌得以訓(xùn)練參數(shù)量達5400億的PaLM模型。這一突破證明,只要集群規(guī)模和互聯(lián)效率足夠高,模型性能可隨計算量近乎線性增長,而TPU的網(wǎng)絡(luò)拓撲與調(diào)度系統(tǒng)正是這一規(guī)律的關(guān)鍵硬件支撐。
2023年至2024年,TPU v5p的推出成為轉(zhuǎn)折點。該版本性能較v4翻倍,并引入彈性節(jié)點架構(gòu),支持企業(yè)客戶按需擴展至近9000顆芯片的規(guī)模。meta、Anthropic等頭部AI公司開始采購TPU v5p,標(biāo)志著其從“內(nèi)部工具”正式進入生態(tài)競爭階段。2024年發(fā)布的第六代TPU v6(代號Trillium)則進一步轉(zhuǎn)向推理場景優(yōu)化:FP8吞吐量提升、片上SRAM容量翻倍、KV Cache訪問模式深度優(yōu)化,能效比上一代提高67%。谷歌明確表示,v6的目標(biāo)是成為“推理時代最省錢的商業(yè)引擎”。
2025年,第七代TPU v7(代號Ironwood)的發(fā)布,將競爭推向新高度。作為首款專用推理芯片,Ironwood在單芯片性能上與英偉達Blackwell系列旗鼓相當(dāng):FP8稠密算力達4.6 petaFLOPS,內(nèi)存帶寬7.4 TB/s,芯片間通信帶寬9.6 Tbps。其真正優(yōu)勢在于超大規(guī)模擴展能力——一個Ironwood Pod可集成9216顆芯片,構(gòu)成FP8峰值性能超42.5 exaFLOPS的超節(jié)點。谷歌通過2D/3D環(huán)面拓撲結(jié)合光路交換(OCS)網(wǎng)絡(luò),實現(xiàn)了系統(tǒng)級架構(gòu)的碾壓:OCS利用MEMS微鏡在毫秒級完成光信號切換,故障時能瞬間繞開壞點,使液冷系統(tǒng)的年可用性達99.999%,全年停機時間不足六分鐘。內(nèi)部測試顯示,同等負載下Ironwood的推理成本較GPU系統(tǒng)低30%至40%,極端場景下優(yōu)勢更顯著。
谷歌的競爭策略與英偉達形成鮮明對比。英偉達依托CUDA生態(tài)構(gòu)建了類似蘋果的軟硬件捆綁體系,但GPU的通用性設(shè)計使其在推理場景中存在效率短板:硬件資源并非最優(yōu)配置,單位能耗的推理成本高于專用芯片。英偉達對云廠商的高定價權(quán)(“CUDA稅”)進一步推高了客戶成本。相比之下,谷歌通過全棧整合控制了從芯片設(shè)計到數(shù)據(jù)中心部署的完整鏈條,避免了外部供應(yīng)商的利潤疊加。這種垂直整合不僅降低了自身算力成本,還通過谷歌云將優(yōu)勢傳遞給客戶——例如,TPU@Premises計劃允許企業(yè)將TPU部署在自有數(shù)據(jù)中心,以最低延遲使用推理服務(wù)。
亞馬遜的芯片戰(zhàn)略則聚焦于成本優(yōu)化與云服務(wù)驅(qū)動。其Trainium和Inferentia芯片分別針對訓(xùn)練和推理場景優(yōu)化,設(shè)計靈活性與GPU接近,但性能更貼近商業(yè)需求。通過降低內(nèi)部基礎(chǔ)設(shè)施成本,亞馬遜得以在云服務(wù)價格上形成競爭力。然而,谷歌的全棧優(yōu)勢仍難以被復(fù)制:從模型訓(xùn)練到推理服務(wù)的一體化解決方案,使TPU成為谷歌AI生態(tài)的底層支柱,而非孤立的產(chǎn)品。
TPU的崛起正重塑AI行業(yè)的競爭秩序。隨著企業(yè)推理成本占比攀升,遷移至低成本平臺成為商業(yè)必然選擇。谷歌云憑借TPU的成本優(yōu)勢,AI相關(guān)收入快速增長,云部門全年化收入達440億美元,成為谷歌業(yè)績增長的核心驅(qū)動力。在AI基礎(chǔ)設(shè)施領(lǐng)域,谷歌已從追趕者轉(zhuǎn)變?yōu)轭I(lǐng)導(dǎo)者——其全球數(shù)據(jù)中心布局、代際升級節(jié)奏和全棧能力,正構(gòu)建起比過去十年更堅固的競爭壁壘。TPU的十年進化史,不僅是技術(shù)突破的記錄,更是一部關(guān)于如何通過垂直整合重新定義行業(yè)規(guī)則的商業(yè)教科書。















