在第四屆828 B2B企業(yè)節(jié)盛大啟幕之際,華為云傳來(lái)了一則振奮人心的消息:其Tokens服務(wù)已成功接入CloudMatrix384超節(jié)點(diǎn),標(biāo)志著華為云在AI算力領(lǐng)域邁出了重要一步。
借助xDeepServe架構(gòu)的創(chuàng)新突破,華為云的單芯片性能實(shí)現(xiàn)了飛躍,達(dá)到了2400TPS的超高吞吐量和50ms的超低時(shí)延,這一表現(xiàn)遠(yuǎn)遠(yuǎn)超越了當(dāng)前業(yè)界的平均水平。這一技術(shù)革新,無(wú)疑為AI應(yīng)用的高效運(yùn)行提供了強(qiáng)有力的支持。
近年來(lái),中國(guó)AI算力需求呈現(xiàn)出爆炸式增長(zhǎng)。據(jù)統(tǒng)計(jì),從2024年初到今年6月底,中國(guó)日均Token消耗量從1000億激增到30萬(wàn)億,短短一年半時(shí)間增長(zhǎng)了300余倍。這一數(shù)據(jù)不僅反映了我國(guó)人工智能應(yīng)用規(guī)模的迅速擴(kuò)張,也對(duì)算力基礎(chǔ)設(shè)施提出了前所未有的挑戰(zhàn)。
面對(duì)這一挑戰(zhàn),華為云于今年3月正式推出了基于MaaS的Tokens服務(wù)。該服務(wù)不僅提供了在線版、進(jìn)線版、離線版及尊享版等多種規(guī)格,以滿足不同應(yīng)用和場(chǎng)景的性能需求,還通過(guò)靈活的計(jì)費(fèi)方式,為用戶(hù)帶來(lái)了更為便捷、低成本的算力解決方案。
此次Tokens服務(wù)接入CloudMatrix384超節(jié)點(diǎn),更是將性能推向了新的高度。借助384原生的xDeepServe框架,吞吐量從年初的1920TPS躍升至2400TPS,TPOT也降低至50ms。這一提升,無(wú)疑為AI工具的高效運(yùn)行提供了更為堅(jiān)實(shí)的算力保障。

華為云的這一成就,并非單點(diǎn)突破,而是從硬件到軟件、從算子到存儲(chǔ)、從推理框架到超節(jié)點(diǎn)的全方位創(chuàng)新。CloudMatrix384超節(jié)點(diǎn)以其全新的計(jì)算架構(gòu),突破了性能瓶頸,構(gòu)筑了強(qiáng)大的算力基礎(chǔ)。同時(shí),CANN昇騰硬件使能、EMS彈性?xún)?nèi)存存儲(chǔ)以及xDeepServe分布式推理框架等技術(shù)的協(xié)同作用,共同推動(dòng)了算力的極致釋放。
作為CloudMatrix384超節(jié)點(diǎn)的原生服務(wù),xDeepServe采用了Transformerless的極致分離架構(gòu),將MoE大模型拆分為可獨(dú)立伸縮的微模塊,實(shí)現(xiàn)了高效的算力分配和利用。通過(guò)這一架構(gòu),CloudMatrix384上的大模型被拆解成“積木”,并分配到不同的NPU上同步處理任務(wù),從而構(gòu)建了一條超高吞吐的LLM服務(wù)平臺(tái),即Tokens的“超高速流水線”。
CANN作為硬件加速計(jì)算的中間層,包含了多個(gè)算子庫(kù)和高性能通信庫(kù)等組件,為AI模型的高效運(yùn)行提供了有力支撐。其中,專(zhuān)為超節(jié)點(diǎn)上的大語(yǔ)言模型(LLM)服務(wù)打造的高性能通信庫(kù)XCCL,充分發(fā)揮了CloudMatrix384擴(kuò)展后的UB互聯(lián)架構(gòu)的潛力,為T(mén)ransformerless的全面分離奠定了堅(jiān)實(shí)的硬件基礎(chǔ)。
而FlowServe作為被重構(gòu)的“去中心”式分布式引擎,則將CloudMatrix384切割成完全自治的DP小組,每個(gè)小組都具備Tokenizer、執(zhí)行器、RTC緩存與網(wǎng)絡(luò)棧等完整功能,實(shí)現(xiàn)了千卡并發(fā)也不擁堵的高效運(yùn)行。
目前,華為云MaaS服務(wù)已廣泛支持DeepSeek、Kimi、Qwen等主流大模型及versatile、Dify等主流Agent平臺(tái)。通過(guò)大量的模型性能優(yōu)化和效果調(diào)優(yōu),華為云實(shí)現(xiàn)了“源于開(kāi)源,高于開(kāi)源”的目標(biāo),讓更多大模型能夠在昇騰云上實(shí)現(xiàn)更快更好的運(yùn)行。
以文生圖大模型為例,在輕微損失畫(huà)質(zhì)的前提下,通過(guò)Int8量化、旋轉(zhuǎn)位置編碼融合算子等方式,華為云MaaS平臺(tái)實(shí)現(xiàn)了出圖速度的兩倍提升,最大尺寸支持達(dá)到2K×2K。而在文生視頻大模型上,通過(guò)量化提速和通算并行等方式,視頻生成速度大幅提升,相較于友商實(shí)現(xiàn)了3.5倍的性能提升。
在應(yīng)用層面,華為云已與超過(guò)100家合作伙伴攜手深入行業(yè)場(chǎng)景,共同推出了豐富的Agent解決方案。這些方案在調(diào)研分析、內(nèi)容創(chuàng)作、智慧辦公、智能運(yùn)維等領(lǐng)域發(fā)揮了重要作用,幫助企業(yè)更便捷地?fù)肀I創(chuàng)新,加速智能化轉(zhuǎn)型。
例如,基于MaaS平臺(tái)推出的今日人才數(shù)智員工解決方案,集成了先進(jìn)的自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),能夠智能交互并處理任務(wù),顯著提升服務(wù)效率與客戶(hù)滿意度。而北京方寸無(wú)憂科技開(kāi)發(fā)的無(wú)憂智慧公文解決方案,則通過(guò)智能化手段提升了公文處理效能,推動(dòng)了政企辦公的智能化轉(zhuǎn)型。















