可靈AI通過官方公眾號(hào)正式宣布,其研發(fā)的全球首個(gè)統(tǒng)一多模態(tài)視頻模型——可靈視頻O1模型已全面上線。這一突破性成果標(biāo)志著視頻生成技術(shù)邁入全新階段,通過整合多模態(tài)交互能力,為用戶提供更智能、更靈活的創(chuàng)作體驗(yàn)。
據(jù)官方介紹,可靈O1模型的核心創(chuàng)新在于構(gòu)建了統(tǒng)一的生成式底座架構(gòu)。該架構(gòu)突破了傳統(tǒng)功能模塊的割裂限制,通過引入MVL(多模態(tài)視覺語言)交互框架,實(shí)現(xiàn)了文本、圖像、視頻等不同形式輸入的無縫融合。用戶僅需在單一交互界面中輸入指令,即可完成復(fù)雜場(chǎng)景的生成任務(wù),顯著提升了創(chuàng)作效率。
技術(shù)層面,模型深度融合了Chain-of-thought推理機(jī)制,使其具備強(qiáng)大的常識(shí)判斷與事件推演能力。官方宣稱,該系統(tǒng)能夠精準(zhǔn)解析各類輸入內(nèi)容,無論是靜態(tài)照片、動(dòng)態(tài)視頻還是文字描述,均可轉(zhuǎn)化為可執(zhí)行的創(chuàng)作指令。配合全新升級(jí)的交互界面,用戶通過自然語言對(duì)話即可自由調(diào)用素材庫(kù),實(shí)現(xiàn)細(xì)節(jié)參數(shù)的精準(zhǔn)調(diào)控。
在主體呈現(xiàn)方面,可靈O1模型展現(xiàn)出顯著優(yōu)勢(shì)。其支持多視角主體構(gòu)建技術(shù),即使鏡頭角度發(fā)生劇烈變化,主體特征仍能保持高度一致性,確保畫面連貫穩(wěn)定。更值得關(guān)注的是,該系統(tǒng)允許用戶同時(shí)操作多個(gè)獨(dú)立主體,通過智能關(guān)聯(lián)算法實(shí)現(xiàn)復(fù)雜場(chǎng)景的協(xié)同生成,為影視制作、廣告創(chuàng)意等領(lǐng)域開辟了新的可能性。
此次升級(jí)同步推出的創(chuàng)作平臺(tái)進(jìn)一步降低了技術(shù)門檻。用戶無需掌握專業(yè)軟件操作,通過直觀的對(duì)話式交互即可完成從概念設(shè)計(jì)到成品輸出的全流程。系統(tǒng)內(nèi)置的智能糾錯(cuò)機(jī)制可實(shí)時(shí)優(yōu)化生成結(jié)果,確保最終作品符合創(chuàng)作預(yù)期。據(jù)測(cè)試數(shù)據(jù)顯示,新平臺(tái)在復(fù)雜場(chǎng)景渲染速度上較前代產(chǎn)品提升近40%,同時(shí)保持了98.7%的語義理解準(zhǔn)確率。















