經(jīng)歷了過去一年的沉淀和發(fā)展之后,具身智能機(jī)器人公司們的發(fā)展路徑也變得更為清晰。
3月10日,由華為前“天才少年”稚暉君創(chuàng)立的智元機(jī)器人(以下簡稱:智元)發(fā)布首個(gè)通用具身基座大模型:智元啟元大模型(GenieOperator-1)。據(jù)智元官方介紹,該模型基于Vision-Language-Latent-Action (ViLLA)架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型) + MoE(混合專家)組成。這種模型架構(gòu)可以讓機(jī)器人持續(xù)學(xué)習(xí)進(jìn)化,利用人類視頻學(xué)習(xí),完成小樣本快速泛化,將具身智能推上一個(gè)新臺(tái)階。
模型發(fā)布后,智元合伙人、具身業(yè)務(wù)部總裁姚卯青和智元具身研究中心常務(wù)主任任廣輝接受了包括新京報(bào)貝殼財(cái)經(jīng)在內(nèi)的媒體采訪。
近兩個(gè)小時(shí)的采訪里,數(shù)據(jù)、AI是被討論和提及最多的詞匯,姚卯青和任廣輝多次強(qiáng)調(diào)了AI對智元的戰(zhàn)略意義。進(jìn)入2025年,機(jī)器人行業(yè)之間的競爭將變得更為激烈。
通過分析人類視頻進(jìn)行學(xué)習(xí),實(shí)現(xiàn)小樣本快速泛化
能走能跑能跳舞的人形機(jī)器人從去年開始就一直是科技圈討論的焦點(diǎn),酷炫的外形總給人一種科幻照進(jìn)現(xiàn)實(shí)的感覺。但對于部分機(jī)器人企業(yè)的從業(yè)者來說,相較于外觀,數(shù)據(jù)才是他們更為關(guān)注的。
據(jù)智元官方介紹,智元啟元大模型發(fā)布的初衷就是為了解決具身模型在落地上的困境。在任廣輝看來,現(xiàn)在很多具身模型的泛化性相對差一些,比如在實(shí)驗(yàn)室訓(xùn)練的模型到了一些新的場景中成功率就會(huì)大幅下降;或者機(jī)器人在接受訓(xùn)練了一個(gè)任務(wù)之后想要再做其他的任務(wù)就會(huì)再次需要大量的數(shù)據(jù),這樣就會(huì)導(dǎo)致數(shù)據(jù)成本比較高;另外,很多數(shù)據(jù)在不同的機(jī)器人本體之間是無法共用的,行業(yè)缺乏一個(gè)完整的數(shù)據(jù)回流的系統(tǒng),這就導(dǎo)致模型無法持續(xù)地進(jìn)行性能提升,也是現(xiàn)在機(jī)器人落地難的主要原因。
Vision-Language-Latent-Action在利用視覺、語言大模型之外,還讓機(jī)器人學(xué)習(xí)人類的操作視頻和真機(jī)的示教數(shù)據(jù),任廣輝認(rèn)為,這樣的架構(gòu)就可以構(gòu)建一個(gè)非常完整通用的能力,包括場景理解、指令理解、動(dòng)作理解,還有精細(xì)的動(dòng)作、操作能力等。所謂小范圍泛化則是指可以在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務(wù),降低了具身模型的使用門檻,使得后續(xù)訓(xùn)練成本非常低。
“在內(nèi)部討論會(huì)上,我們會(huì)對比不同企業(yè)之間的數(shù)據(jù)量,這比產(chǎn)品外觀更能說明各家進(jìn)度?!便y河通用機(jī)器人的一位研發(fā)工程師告訴貝殼財(cái)經(jīng)記者。數(shù)據(jù)質(zhì)量決定了算法的形式,算法又決定了機(jī)器人行動(dòng)軌跡,這都是非常重要的。
為了解決數(shù)據(jù)不足的問題,銀河通用發(fā)布端到端具身抓取基礎(chǔ)大模型 GraspVLA。銀河通用介紹,GraspVLA 的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分,其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù),預(yù)訓(xùn)練后,模型可直接在真實(shí)場景和物體上零樣本測試。
另外,據(jù)媒體報(bào)道,特斯拉也于去年大量招聘操作員收集動(dòng)作數(shù)據(jù),不同企業(yè)都在出招解決數(shù)據(jù)機(jī)器人企業(yè)數(shù)據(jù)匱乏的問題。
機(jī)器人公司不做大模型將沒有未來
在接受媒體采訪的時(shí)間里,兩位受訪對象多次提及AI對智元的戰(zhàn)略意義以及對于機(jī)器人企業(yè)發(fā)展的重要性,這背后也可以看到智元的發(fā)展路徑。任廣輝認(rèn)為,機(jī)器人公司不做大模型將沒有未來。
“今年具身智能、智能機(jī)器人首次寫入政府工作報(bào)告,這說明行業(yè)即將迎來更多的新玩家,但同時(shí)競爭也會(huì)加劇,這對機(jī)器人企業(yè)本身也提出更高的要求,公司團(tuán)隊(duì)規(guī)模、產(chǎn)品研發(fā)實(shí)力、商業(yè)化能力是接下來企業(yè)之間比拼的重點(diǎn),只有綜合實(shí)力過硬的企業(yè)才會(huì)搶占先機(jī)?!币γ喔嬖V貝殼財(cái)經(jīng)記者。
按照國際機(jī)器人協(xié)會(huì)預(yù)測,2021年到2030年,全球人形機(jī)器人市場規(guī)模年復(fù)合增長率將高達(dá)71%。中國電子學(xué)會(huì)數(shù)據(jù)顯示,到2030年,中國人形機(jī)器人市場規(guī)模有望達(dá)到8700億元。
行業(yè)快速增長,機(jī)器人企業(yè)之間的發(fā)展路線以及商業(yè)化模式也開始出現(xiàn)明顯分化。
在任廣輝看來,AI能力將來一定是區(qū)分整個(gè)機(jī)器人產(chǎn)品競爭力的核心,機(jī)器人公司不做大模型將沒有未來,沒有智能化、沒有作業(yè)能力的機(jī)器人只是一個(gè)硬件,能做的事情非常有限,智元未來一定會(huì)持續(xù)加大對AI的投入。
銀河通用機(jī)器人、智平方機(jī)器人也和智元的觀點(diǎn)類似,但在春晚爆火的宇樹科技的優(yōu)勢卻是在本體硬件層面,對AI的投入比較克制。
去年世界機(jī)器人大會(huì)召開時(shí),宇樹科技創(chuàng)始人王興興在接受媒體采訪時(shí)表示,目前人形機(jī)器人行業(yè)最大的難題在于,機(jī)器人的AI發(fā)展是落后于通用AI的,目前尚未達(dá)到突破臨界點(diǎn)的時(shí)刻。
“目前具身智能領(lǐng)域,每家企業(yè)的想法都不太一樣,技術(shù)路線上有所差別,甚至連一些共性的方面都不太一樣。例如機(jī)器人的相機(jī)應(yīng)該裝什么?裝幾個(gè)?裝在哪?傳感器數(shù)據(jù)應(yīng)該怎么采集,是存在很多的差異性的,這就導(dǎo)致整個(gè)機(jī)器人AI模型的技術(shù)路線其實(shí)沒有那么統(tǒng)一,其實(shí)很難評(píng)價(jià)哪個(gè)正確哪個(gè)錯(cuò)誤,宇樹科技在AI的投入是比較克制的?!蓖跖d興表示。
今年年初,具身智能公司傅利葉在宣布拿到近8億元E輪融資時(shí),傅利葉創(chuàng)始人兼首席執(zhí)行官表示,“本輪融資的完成讓我們更加堅(jiān)定了‘為AI打造最佳具身本體’的產(chǎn)品目標(biāo)?!?/p>
從整個(gè)機(jī)器人行業(yè)發(fā)展來看,有的企業(yè)著力發(fā)展具身大模型,有的在本體方面具備優(yōu)勢,就像姚卯青所說,目前“偏科”的機(jī)器人公司比較多,有的擅長算法,當(dāng)然也有其他大量做本體的公司,但智元把自己定位為從硬件、數(shù)據(jù)、算法,端到端都具備研發(fā)能力。然而在行業(yè)發(fā)展初期,究竟哪種模式更能受到市場認(rèn)可還有待檢驗(yàn)。
新京報(bào)貝殼財(cái)經(jīng)記者 張晗
編輯 白昊天
校對 柳寶慶