1月8日,智元機(jī)器人在具身圈再次掀起波瀾,正式推出首個(gè)4D世界模型EnerVerse,多視角任意觀測(cè),基于未來(lái)空間生成引導(dǎo)機(jī)器人動(dòng)作規(guī)劃,再次加速具身智能進(jìn)程。


在機(jī)器人技術(shù)領(lǐng)域中,動(dòng)作規(guī)劃始終是一項(xiàng)充滿挑戰(zhàn)的任務(wù)?,F(xiàn)有的機(jī)器人動(dòng)作規(guī)劃方法,往往因?yàn)槿狈?duì)動(dòng)態(tài)操作空間的深入理解和長(zhǎng)序任務(wù)的記憶處理能力不足而表現(xiàn)不佳,而已有的基于2D視頻生成的world model又難以準(zhǔn)確表達(dá)復(fù)雜的3D關(guān)系。為了解決這一問(wèn)題,智元機(jī)器人提出了機(jī)器人領(lǐng)域首個(gè)4D世界模型EnerVerse,將生成式空間智能與機(jī)器人動(dòng)作預(yù)測(cè)相結(jié)合,使機(jī)器人能夠更高效、更準(zhǔn)確地完成任務(wù)。



智元4D世界模型EnerVerse 的問(wèn)世,打破了傳統(tǒng)人工智能模型局限于三維空間的問(wèn)題。EnerVerse引入了自由錨定視角(FAV)來(lái)表征4D時(shí)空,允許機(jī)器人動(dòng)態(tài)調(diào)整其視角,克服了固定多視角在狹窄或遮擋環(huán)境中的局限性。FAV通過(guò)光線投射原理和視線方向圖作為視角控制條件,時(shí)間維+多視角視頻生成,確保了生成視頻的幾何一致性,“上帝視角”任意觀測(cè),預(yù)測(cè)4D未來(lái),從而提升了機(jī)器人在復(fù)雜環(huán)境中的動(dòng)作規(guī)劃能力,大幅增加任務(wù)成功率。在實(shí)驗(yàn)中,EnerVerse在單視角設(shè)定下取得平均最優(yōu)效果,而在三視角設(shè)定下效果得到進(jìn)一步增強(qiáng)。




此外,EnerVerse在LIBERO仿真場(chǎng)景和AgiBot World真實(shí)場(chǎng)景中生成的多視角視頻質(zhì)量也得到了充分驗(yàn)證,在短程與長(zhǎng)程任務(wù)視頻生成中,EnerVerse均展現(xiàn)出卓越的性能。




最后,EnerVerse構(gòu)建了一個(gè)數(shù)據(jù)飛輪,通過(guò)在仿真數(shù)據(jù)上訓(xùn)練的4D生成模型(EnerVerse-D)與4D高斯重建交替迭代,為真實(shí)場(chǎng)景下的FAV生成提供了偽真值支持。這一創(chuàng)新方法不僅增強(qiáng)了模型的泛化能力,還為機(jī)器人在真實(shí)世界中的應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。



智元機(jī)器人推出首個(gè) 4D 世界模型 EnerVerse ,是一次具有里程碑意義的創(chuàng)新之舉,開(kāi)創(chuàng)了未來(lái)具身智能的新方向。通過(guò)未來(lái)空間生成引導(dǎo)動(dòng)作規(guī)劃,EnerVerse不僅突破了機(jī)器人任務(wù)規(guī)劃的技術(shù)瓶頸,還為多模態(tài)、長(zhǎng)程任務(wù)的研究提供了全新范式。隨著 EnerVerse 架構(gòu)的不斷優(yōu)化和完善,期待它為具身智能行業(yè)的發(fā)展帶來(lái)更多的驚喜和變革,引領(lǐng)人工智能技術(shù)進(jìn)入一個(gè)嶄新的時(shí)代。


來(lái)源:咸寧新聞網(wǎng)