斯坦福大學(xué)與麻省理工學(xué)院(MIT)聯(lián)合研究團隊近日宣布,推出全新AI推理框架ReCAP,在長上下文任務(wù)處理領(lǐng)域?qū)崿F(xiàn)重大突破。該框架通過創(chuàng)新性架構(gòu)設(shè)計,成功解決大語言模型(LLM)在復(fù)雜任務(wù)中普遍存在的目標(biāo)偏移、上下文斷裂和計算成本激增三大難題,多項基準(zhǔn)測試顯示其性能顯著超越現(xiàn)有主流框架ReAct。
自2022年ReAct框架問世以來,AI推理領(lǐng)域涌現(xiàn)出眾多復(fù)雜架構(gòu),但多數(shù)因結(jié)構(gòu)冗余導(dǎo)致跨任務(wù)適配性差。研究團隊指出,現(xiàn)有框架在更換評測場景時往往需要重構(gòu)示例,而ReAct憑借其簡潔的示例設(shè)計和即插即用特性,在三年間成為行業(yè)事實標(biāo)準(zhǔn)。然而,隨著任務(wù)復(fù)雜度提升,ReAct在長序列推理中逐漸暴露出目標(biāo)遺忘、上下文丟失等瓶頸問題。
針對這些挑戰(zhàn),ReCAP創(chuàng)新性地融合序列推理與層級推理優(yōu)勢,構(gòu)建出具備動態(tài)記憶能力的遞歸樹結(jié)構(gòu)。其核心機制包含三大模塊:計劃前瞻分解機制通過動態(tài)生成子任務(wù)列表實現(xiàn)目標(biāo)聚焦;結(jié)構(gòu)化上下文再注入機制確保跨層級信息連貫性;滑動窗口記憶機制則有效控制內(nèi)存占用,避免計算成本指數(shù)級增長。這種設(shè)計使模型既能保持長期目標(biāo)一致性,又能根據(jù)執(zhí)行反饋實時優(yōu)化后續(xù)計劃。
在具身推理基準(zhǔn)Robotouille測試中,ReCAP展現(xiàn)驚人性能提升:同步任務(wù)成功率達70%(較ReAct提升84.2%),異步任務(wù)成功率達53%(提升112.5%)。在代碼編輯基準(zhǔn)SWE-bench Verified上,其44.8%的成功率同樣優(yōu)于ReAct基線的39.58%。值得注意的是,所有測試均嚴格遵循pass@1原則,即不依賴重試或投票機制,這證明其性能提升源于架構(gòu)本質(zhì)創(chuàng)新而非優(yōu)化技巧。
研究團隊坦言,ReCAP的計算成本約為ReAct的三倍,主要源于計劃前瞻分解機制需要額外調(diào)用LLM。但在需要高精度執(zhí)行的醫(yī)療診斷、金融分析等關(guān)鍵領(lǐng)域,這種成本增加完全在可接受范圍內(nèi)。更關(guān)鍵的是,其通用性突破使同一架構(gòu)能同時勝任具身推理和代碼編輯等差異巨大的任務(wù)類型,這在現(xiàn)有框架中極為罕見。
該成果引發(fā)學(xué)界廣泛關(guān)注。有專家指出,遞歸結(jié)構(gòu)的引入為AI推理系統(tǒng)提供了類似人類思維的動態(tài)規(guī)劃能力。當(dāng)這種能力與空間智能技術(shù)結(jié)合時,可能催生出真正具備自主決策能力的智能體。例如在復(fù)雜軟件工程中,ReCAP可管理百萬行級代碼庫的依賴關(guān)系;在科研領(lǐng)域,其能自主追蹤跨學(xué)科文獻脈絡(luò)并生成綜合報告。
隨著研究團隊即將開源核心代碼,這場由遞歸結(jié)構(gòu)引發(fā)的推理框架革新,或?qū)⑼苿覣I從"單步執(zhí)行者"向"長期規(guī)劃者"轉(zhuǎn)型。這種轉(zhuǎn)變不僅意味著技術(shù)能力的躍遷,更可能重新定義人機協(xié)作的邊界——在需要精密控制與長期記憶的場景中,AI將真正成為可靠的智能伙伴。















