原本以為今年下半年AI圖像生成領(lǐng)域的格局已定,沒想到阿里通義千問團隊突然拋出一枚“重磅炸彈”——Z-image開源模型,上線即登頂開源社區(qū)熱門榜首位,瞬間打破了原有的平靜。
在AI圖像生成領(lǐng)域,參數(shù)量一直被視為衡量模型性能的重要指標。通常參數(shù)量越大,模型處理細節(jié)的能力越強,但相應的硬件要求也更高。例如,谷歌的Nano-Banana Pro憑借極高的參數(shù)量,在文生圖方面表現(xiàn)出色,但普通用戶需要配備高性能顯卡才能運行。而Flux 2的32B參數(shù)量,更是讓24GB顯存的3090/4090顯卡成為標配,普通用戶難以企及。
Z-image的出現(xiàn)打破了這一局面。這款由阿里巴巴通義實驗室研發(fā)的開源模型,參數(shù)量僅為6B,卻定位為“輕量且高性能”的AI圖像解決方案,直接對標參數(shù)量20B以上的閉源旗艦模型。這一設(shè)計理念讓許多用戶感到驚喜,畢竟在當前的生圖領(lǐng)域,6B的參數(shù)量并不突出,甚至可以說是“小個子”。
然而,Z-image的硬件門檻卻低得令人意外。官方文檔顯示,即使是幾年前的RTX 3060顯卡,或是顯存6GB的消費級主流顯卡,配合成熟的量化技術(shù),也能流暢運行Z-image。這意味著用戶無需為了玩AI畫圖而專門配置高性能主機,手邊的游戲本甚至高性能輕薄本都能成為創(chuàng)意工具。
對于想要體驗Z-image的用戶來說,操作也十分簡單。講究的用戶可以從Hugging Face下載模型,搭配tonyhub等簡潔前端和工具流即可使用;不太講究的用戶只需下載ComfyUI最新版或升級本地版,內(nèi)置的工作流和模板讓操作變得輕松。即使沒有顯卡的核顯用戶,也能在Hugging Face或阿里的魔搭社區(qū)找到現(xiàn)成的在線Demo,雖然需要排隊等待,但勝在免費。
為了驗證Z-image的實際表現(xiàn),我們進行了一系列測試,將其與字節(jié)的豆包和谷歌的Nano-Banana Pro進行對比。在“人類考古學家在金字塔挖掘現(xiàn)場發(fā)現(xiàn)旋轉(zhuǎn)金屬球”的測試中,Nano-Banana Pro成功還原了紀錄片拍攝的界面和質(zhì)感,而Z-image和豆包的表現(xiàn)相差無幾,但Z-image的圖片一致性偏高,多次嘗試后結(jié)果極為相似。
在人像測試中,三款模型的表現(xiàn)都令人滿意,生成的圖片真實感強、光影自然。不過,Z-image和豆包更符合國人審美,而Nano-Banana Pro生成的華人形象帶有明顯的ABC特征。在海報設(shè)計測試中,三款模型在細節(jié)和光影方面表現(xiàn)接近,Nano-Banana Pro在中文嵌入方面的表現(xiàn)有所提升。
在多格圖片教程測試中,Nano-Banana Pro展現(xiàn)了強大的推理能力,能夠準確生成多格圖片并理解數(shù)字順序的含義。而Z-image雖然整體意思接近,但數(shù)字標注完全錯誤。在二次元/漫畫圖片生成測試中,Nano-Banana Pro成功識別了初音未來和洛天依兩位角色,構(gòu)圖也十分有趣;豆包雖然不認識洛天依,但構(gòu)圖仍有優(yōu)勢;Z-image則完全無法理解測試要求。
盡管Z-image在復雜推理和精準編輯方面仍不及閉源模型,且目前缺乏圖片編輯相關(guān)功能,但在90%的日常使用場景中,它已經(jīng)能夠做到“夠用”甚至“好用”。對于中小企業(yè)和個人用戶來說,Z-image的低硬件門檻和開源特性意味著更大的創(chuàng)作自由度和更低的成本。未來,隨著社區(qū)的不斷發(fā)展,可能會有更多基于Z-image的微調(diào)模型出現(xiàn),進一步拓展其應用場景。















