在近日于上海舉辦的2025AI容器應用落地與發展論壇上,華為公司副總裁、數據存儲產品線總裁周躍峰博士宣布了一項重要技術成果——AI容器技術Flex:ai正式發布。與此同時,華為攜手上海交通大學、西安交通大學及廈門大學共同宣布,將這一產學研深度融合的成果向全球開源,旨在為破解算力資源利用率低下這一行業難題提供創新解決方案。
隨著人工智能產業的迅猛發展,全球對算力的需求呈現爆發式增長。然而,一個不容忽視的問題是,算力資源的利用率卻長期處于較低水平。具體表現為:小規模AI模型訓練任務往往獨占整張算力卡,導致大量資源閑置;大規模模型任務則因單機算力不足而難以推進;更有一大批缺乏GPU或NPU的通用服務器,因無法直接支持AI計算而處于“休眠”狀態。這種供需之間的嚴重錯配,已成為制約AI產業進一步發展的關鍵因素。
針對上述挑戰,華為推出的Flex:ai XPU池化與調度軟件,基于Kubernetes容器編排平臺構建,通過精細化管理和智能調度GPU、NPU等智能算力資源,實現了AI工作負載與算力資源的高效匹配,顯著提升了算力利用率。該技術的成功研發,得益于華為與三所頂尖高校的緊密合作,共同攻克了三大核心技術難題。
首先,針對小模型訓推場景中的資源浪費問題,華為與上海交通大學聯合研發了XPU池化框架。這一框架能夠將單張GPU或NPU算力卡精細切分為多個虛擬算力單元,切分精度高達10%。通過這種技術,單張算力卡可以同時承載多個AI工作負載,且支持按需切分算力單元,實現了“用多少切多少”的靈活資源管理。據測試,該技術可使此類場景下的整體算力平均利用率提升30%,大幅提高了單卡的服務能力。
其次,為了解決大量通用服務器因缺乏智能計算單元而無法服務于AI工作負載的問題,華為與廈門大學共同研發了跨節點拉遠虛擬化技術。該技術能夠將集群內各節點的空閑XPU算力聚合起來,形成一個“共享算力池”。這一創新不僅為高算力需求的AI工作負載提供了充足的資源支撐,還使得不具備智能計算能力的通用服務器能夠通過高速網絡,將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行。這一技術有效促進了通用算力與智能算力資源的深度融合。
最后,面對算力集群中多品牌、多規格異構算力資源難以統一調度的難題,華為與西安交通大學共同打造了Hi Scheduler智能調度器。該調度器能夠自動感知集群負載與資源狀態,結合AI工作負載的優先級、算力需求等多維參數,對本地及遠端的虛擬化GPU、NPU資源進行全局最優調度。即使在負載頻繁波動的場景下,也能確保AI工作負載的平穩運行,實現算力資源的分時復用,讓每一份算力都得到充分利用。
Flex:ai的全面開源,意味著其所有核心技術能力將向全球開發者開放。華為希望通過匯聚全球創新力量,共同推動異構算力虛擬化與AI應用平臺對接標準的構建,形成算力高效利用的標準化解決方案。這一舉措無疑將為全球AI產業的高質量發展注入新的強勁動能。















