在近期舉辦的世界機(jī)器人大會(huì)上,阿里巴巴達(dá)摩院宣布了一項(xiàng)重大舉措:開源三大核心組件,旨在推動(dòng)具身智能的全面發(fā)展。這些組件包括VLA(視覺-語言-動(dòng)作)模型RynnVLA-001-7B、世界理解模型RynnEC,以及創(chuàng)新的機(jī)器人上下文協(xié)議RynnRCP。
達(dá)摩院首次提出的RCP(Robotics Context Protocol)協(xié)議,被視為具身智能領(lǐng)域的一次革新。這一協(xié)議不僅是一套完整的機(jī)器人服務(wù)框架,更像是一個(gè)“超級適配器”,能夠無縫連接傳感器數(shù)據(jù)采集、模型推理以及機(jī)器人的動(dòng)作執(zhí)行。目前,RynnRCP已經(jīng)成功適配了多款熱門模型和機(jī)械臂,如Pi0、GR00T N1.5等。
RynnRCP框架主要由兩大模塊構(gòu)成:RCP框架和RobotMotion。RCP框架負(fù)責(zé)抽象機(jī)器人及其傳感器的功能,并通過標(biāo)準(zhǔn)協(xié)議進(jìn)行交互;而RobotMotion則作為云端與機(jī)器人本體之間的橋梁,將低頻的推理命令轉(zhuǎn)換為高頻的連續(xù)控制信號,確保機(jī)器人能夠準(zhǔn)確執(zhí)行動(dòng)作。它還包含了一套運(yùn)動(dòng)規(guī)劃與控制的工具包,為具身智能融入物理世界提供了有力支持。
RynnVLA-001-7B是達(dá)摩院自研的視覺-語言-動(dòng)作模型,具備從第一人稱視角視頻中學(xué)習(xí)人類操作技能的能力,并能將這些技能隱式遷移到機(jī)器人手臂的操控上。在一個(gè)演示中,當(dāng)指令要求機(jī)械臂將草莓放到手掌上時(shí),它能夠準(zhǔn)確識別出草莓,并成功完成放置動(dòng)作,展現(xiàn)了出色的理解和執(zhí)行能力。
在對比測試中,RynnVLA-001-7B在多項(xiàng)撿拾物品放置測評中均取得了最高分,證明了其卓越的性能。達(dá)摩院還提供了詳細(xì)的指南,指導(dǎo)開發(fā)者如何使用自己的數(shù)據(jù)對模型進(jìn)行微調(diào),以便更好地適應(yīng)特定應(yīng)用場景。
另一款開源組件是世界理解模型RynnEC,它將多模態(tài)大語言模型引入了具身世界,使機(jī)器人能夠理解物理世界。RynnEC能夠從多個(gè)維度全面解析場景中的物體,并在復(fù)雜環(huán)境中精準(zhǔn)定位和分割目標(biāo)物體。此次開源的RynnEC-2B模型在對象認(rèn)知和空間認(rèn)知測試中均超越了多個(gè)頂尖模型,展現(xiàn)了強(qiáng)大的認(rèn)知能力。
為了評估模型的性能,達(dá)摩院還推出了RynnEC-Bench基準(zhǔn)測試,涵蓋對象認(rèn)知和空間認(rèn)知兩大領(lǐng)域,共22項(xiàng)認(rèn)知能力評估。這一基準(zhǔn)測試為開發(fā)者提供了全面、客觀的評估標(biāo)準(zhǔn),有助于推動(dòng)具身智能技術(shù)的不斷進(jìn)步。
達(dá)摩院的這次開源行動(dòng),為具身智能開發(fā)者提供了一套“樂高式”的工具包。通過標(biāo)準(zhǔn)化連接、擬人化控制與空間認(rèn)知三大突破,這些組件打通了機(jī)器人從感知到執(zhí)行的完整鏈路。這不僅有望降低開發(fā)門檻,還將加速具身智能在工業(yè)、家庭等場景的規(guī)模化落地,讓機(jī)器人更加智能、靈活,更好地服務(wù)于人類社會(huì)。















