新京報(bào)貝殼財(cái)經(jīng)訊(記者韋博雅)12 月 18 日,北京人形機(jī)器人創(chuàng)新中心正式開源國內(nèi)首個(gè)且唯一通過具身智能國標(biāo)測試的具身VLA大模型 XR-1,以及配套的數(shù)據(jù)基礎(chǔ)RoboMIND 2.0、ArtVIP 最新版?;谏鲜鲩_源成果,能夠推動(dòng)具身智能行業(yè)追尋最本質(zhì)需求,讓機(jī)器人真正在各類應(yīng)用場景下能干活并且會(huì)干活,推動(dòng)國內(nèi)具身智能行業(yè)邁向“全自主、更好用”的新階段。
本次開源的系列內(nèi)容,是面向具身小腦能力的VLA模型XR-1,以及為XR-1等模型提供數(shù)據(jù)訓(xùn)練支持的RoboMIND 2.0和ArtVIP。
北京人形介紹,跨本體VLA模型 XR-1具備多場景、多本體、多任務(wù)特性,并且還擁有高泛化性等優(yōu)勢特點(diǎn)。背后的技術(shù)原理在于,XR-1具備跨數(shù)據(jù)源學(xué)習(xí)、跨模態(tài)對齊、跨本體控制三大核心支柱能力。首先,通過跨數(shù)據(jù)源學(xué)習(xí)讓機(jī)器人能夠利用海量人類視頻進(jìn)行訓(xùn)練,降低訓(xùn)練成本提升訓(xùn)練效率;其次,依靠跨模態(tài)對齊能夠打破視覺和動(dòng)作的隔閡,讓機(jī)器人做到真正的知行合一;最后,借助跨本體控制可以讓XR-1快速匹配不同類型、不同品牌的機(jī)器人本體。
北京人形首創(chuàng)的UVMC(多模態(tài)視動(dòng)統(tǒng)一表征)技術(shù)是關(guān)鍵,它能夠搭建起視覺與動(dòng)作的映射橋梁,讓機(jī)器人將看到的畫面瞬間轉(zhuǎn)化為身體的本能反應(yīng),像人類條件反射般自然做出正確的應(yīng)對動(dòng)作。XR-1的多構(gòu)型預(yù)訓(xùn)練能力,使具身天工2.0具備全身多關(guān)節(jié)絲滑擬人控制,可實(shí)現(xiàn)大幅彎腰下蹲并精準(zhǔn)抓取隨機(jī)擺放的物料箱,完成復(fù)雜倒料任務(wù)
RoboMIND 2.0則在此前版本基礎(chǔ)上進(jìn)行了全面的升級。機(jī)器人操作軌跡數(shù)據(jù)增加到了30+萬條、擴(kuò)展了工業(yè)零件分揀、流水線設(shè)備、物理化學(xué)實(shí)驗(yàn)室、家庭廚房、家電交互等在內(nèi)的11個(gè)涵蓋工業(yè)、商用、家庭的場景,機(jī)器人本體、任務(wù)、技能數(shù)量也分別有了2倍以上的提升。同時(shí),增加了1.2+萬條帶觸覺操作數(shù)據(jù)支持訓(xùn)練VTLA、MLA模型,還可用于訓(xùn)練機(jī)器人大小腦模型,并開源了基于ArtVIP的大量仿真數(shù)據(jù)。
編輯 岳彩周
校對 盧茜