原本以為今年下半年AI圖像生成領域的熱鬧程度不過如此,沒想到阿里通義千問團隊近日甩出一張“王炸”——Z-image,瞬間在開源社區掀起波瀾,上線即登頂熱門榜首位。
Z-image,中文名為“造相”,是阿里巴巴通義實驗室研發的一款開源圖像生成基礎模型。它定位為“輕量且高性能”的AI圖像解決方案,參數量僅有6B(60億),卻對標參數量20B以上的閉源旗艦模型。在AI領域,參數量常被視為模型的“腦容量”,參數量越大,模型往往能掌握更多知識,生成圖像的細節也越豐富。例如谷歌訓練的Nano-Banana Pro,因極高的參數量,文生圖效果極為出色,但對硬件要求極高,普通用戶難以駕馭。
相比之下,Z-image的硬件門檻低得驚人。官方文檔顯示,即便是幾年前的RTX 3060顯卡,或是顯存6GB的消費級主流顯卡,配合成熟的量化技術,也能流暢運行。這意味著用戶無需為了玩AI畫圖專門配置高性能主機,手邊的游戲本甚至高性能輕薄本都能成為創意工坊。對于沒有顯卡的核顯用戶,Hugging Face和阿里的魔搭社區(ModelScope)還提供了現成的在線Demo,雖然可能需要排隊等待,但完全免費。
如此低的門檻,讓Z-image迅速吸引了大量關注。那么,它的實際表現如何呢?為了驗證這一點,記者進行了一系列測試,用相同的提示詞(Prompt)對比了Z-image與國內外兩款常用圖片生成大模型——字節的豆包和Nano-Banana Pro。
在測試人類考古學家在金字塔挖掘現場發現旋轉金屬球的場景時,Nano-Banana Pro成功還原了紀錄片拍攝的界面和質感,而Z-image和豆包的表現相差無幾,但Z-image的圖片一致性偏高,多次嘗試在相同參數下得出的結果極為相似,可能是內置參數的影響。
在人像測試中,提示詞要求生成一張平平無奇的iPhone照片,展現松弛氛圍感的亞洲美女。三款模型生成的圖片均真實感強、光影自然,無明顯瑕疵。不過,Z-image和豆包更符合國人審美,而Nano-Banana Pro生成的華人形象帶有明顯的ABC特征。
在海報設計測試中,三款模型應對一般中文嵌入的能力均有所提升,細節和光影表現也難分伯仲。然而,在多格圖片教程生成測試中,差距顯現。提示詞要求生成手賬風格的番茄炒蛋制作步驟教程圖,步驟說明需為中文。Nano-Banana Pro能夠掌握多格圖片生成和數字順序的含義,基本一次出圖;而Z-image雖然粗看有些意思,但數字標注完全錯誤。
在二次元/漫畫圖片生成測試中,提示詞要求生成日本漫畫風格,展現初音未來和洛天依撕開海報并穿越到現實中的場景。Nano-Banana Pro不僅知道兩位角色,構圖也頗具創意;豆包雖不知洛天依,但構圖仍有優勢;而Z-image則完全不知所云。
盡管在復雜推理和精準編輯上,Z-image尚不及Nano-Banana Pro等閉源模型,且目前缺失圖片編輯相關能力,但在90%的日常使用場景中,它已能做到“夠用”甚至“好用”。對于想嘗試AIGC的中小企業或個人用戶而言,Z-image的意義不言而喻。它不僅降低了硬件門檻,還因其開源特性,為未來各種微調模型的出現提供了可能。就像安卓手機一樣,雖然初期可能不如蘋果流暢,但一旦生態建立,爆發力將不可小覷。















