DeepSeek 今日正式推出實驗性版本 DeepSeek-V3.2-Exp 模型,該版本作為新一代架構研發的過渡性成果,在長文本處理效率方面實現了突破性進展。此次更新引入了自主研發的 DeepSeek Sparse Attention(DSA)稀疏注意力機制,通過細粒度注意力分配策略,在保持模型性能穩定的前提下,顯著提升了長文本場景下的訓練與推理效率。
據技術文檔披露,DSA 機制首次實現了動態稀疏注意力分配,通過智能識別文本關鍵信息區域,將計算資源集中于核心語義單元。實驗數據顯示,該機制在處理超長文本時,可將計算資源占用降低 40% 以上,同時保證模型輸出質量與基準版本 V3.1-Terminus 持平。為確保評估結果的客觀性,研發團隊嚴格對齊兩個版本的訓練參數與數據配置,在涵蓋金融、法律、科技等領域的 20 余個公開評測集中,V3.2-Exp 的綜合表現與前代版本誤差率控制在 0.3% 以內。
伴隨模型升級,DeepSeek 同步調整了商業化策略。即日起,開發者通過 API 調用新模型的費用將下降超 50%,此舉旨在降低長文本應用的技術門檻。平臺負責人表示,價格調整基于 DSA 機制帶來的算力優化成果,希望借此推動智能文本處理技術在更多行業的普及應用。
目前,DeepSeek 官方應用、網頁端及小程序已完成版本更新。考慮到實驗性版本仍需大規模真實場景驗證,平臺將并行維護 V3.1-Terminus 的 API 接口,為開發者提供對比測試環境。技術團隊特別提醒,雖然 V3.2-Exp 已通過多項基準測試,但在處理特定領域專業文本時,仍建議結合實際業務需求進行適配性驗證。
此次更新引發開發者社區廣泛關注,多位技術專家指出,稀疏注意力機制的應用標志著大模型架構優化進入新階段。有從業者測算,按當前降價幅度計算,日均處理百萬級字符的應用每月可節省數萬元成本。值得注意的是,平臺同步更新的還有微信三端功能升級等系列技術動態。














