界面新聞?dòng)浾?| 徐美慧
界面新聞編輯 | 文姝琪
過去幾年,隨著大模型與VLA(視覺-語言-動(dòng)作模型)技術(shù)的爆發(fā),機(jī)器人已具備了處理多任務(wù)與多指令的泛化能力。然而,當(dāng)機(jī)器人試圖從“實(shí)驗(yàn)室Demo”真正走進(jìn)工廠與商超等復(fù)雜真實(shí)場景時(shí),挑戰(zhàn)隨之而來:通用的基座模型雖認(rèn)知廣泛,但在面對疊衣服、處理非標(biāo)品等高精度長尾任務(wù)時(shí),往往面對懂但難做的困境。
1月7日,智元機(jī)器人合伙人、首席科學(xué)家羅劍嵐在接受界面新聞等媒體采訪時(shí)表示,在具身智能的真實(shí)世界部署中,在預(yù)訓(xùn)練出現(xiàn)邊際效應(yīng)遞減的情況下,在線后訓(xùn)練能夠高效突破VLA性能瓶頸。
智元提供的實(shí)驗(yàn)數(shù)據(jù)顯示,在機(jī)器人學(xué)習(xí)中,3小時(shí)的真實(shí)世界在線后訓(xùn)練SOP(Scalable Online Post-training)帶來的能力提升約為30%。相比之下,單純增加80小時(shí)的離線專家數(shù)據(jù),僅能帶來4%的提升。
界面新聞?dòng)浾吡私獾?,智元機(jī)器人具身研究中心于近期提出SOP,這是一套面向真實(shí)世界部署的在線后訓(xùn)練系統(tǒng),目的是讓通用機(jī)器人從實(shí)驗(yàn)室走向規(guī)模化部署與智能化運(yùn)行。
“預(yù)訓(xùn)練模型的能力等于出廠設(shè)置的能力。”羅劍嵐在接受媒體采訪時(shí)如此比喻稱。他表示,現(xiàn)有的數(shù)采中心離線數(shù)據(jù)中心未來將更多承擔(dān)“冷啟動(dòng)”的角色,就像汽車發(fā)電機(jī)啟動(dòng)發(fā)動(dòng)機(jī)的那一瞬間,“但在真實(shí)世界中,機(jī)器人不可能以零成功率直接部署,也不能永遠(yuǎn)停留在出廠狀態(tài)?!?/p>

按照羅劍嵐的表述,智元SOP的核心邏輯是將執(zhí)行與學(xué)習(xí)深度耦合。
SOP是讓機(jī)器人在真實(shí)世界中實(shí)現(xiàn)分布式、持續(xù)的在線學(xué)習(xí),將VLA后訓(xùn)練從“離線、單機(jī)、順序”重構(gòu)為“在線、集群、并行”,形成一個(gè)低延遲的閉環(huán)系統(tǒng),多機(jī)器人并行執(zhí)行-云端集中在線更新-模型參數(shù)即時(shí)回流。
與此同時(shí),SOP允許機(jī)器人集群在作業(yè)過程中實(shí)時(shí)回傳成功或失敗的經(jīng)驗(yàn),包括人類接管數(shù)據(jù)。云端利用這些在線數(shù)據(jù)進(jìn)行模型更新,更新后的模型參數(shù)在分鐘級別內(nèi)同步回所有機(jī)器人,實(shí)現(xiàn)集群一致進(jìn)化,維持在線訓(xùn)練的穩(wěn)定性。
從技術(shù)角度看,SOP不僅是算法層面的優(yōu)化,也是對具身智能基礎(chǔ)設(shè)施的“補(bǔ)課”。
羅劍嵐舉例稱,特斯拉在自動(dòng)駕駛領(lǐng)域之所以能跑通端到端大模型,是因?yàn)槠囆袠I(yè)已經(jīng)擁有了標(biāo)準(zhǔn)化硬件和路網(wǎng)數(shù)據(jù)回流體系。相比之下,機(jī)器人行業(yè)缺乏這種社會(huì)層面的基礎(chǔ)設(shè)施,SOP就是在軟件層面構(gòu)建系統(tǒng)框架,來支持機(jī)器人的并發(fā)數(shù)據(jù)回流與在線進(jìn)化。
在具體的商業(yè)落地路徑上,羅劍嵐透露,智元2026年的一個(gè)重點(diǎn)目標(biāo),是實(shí)現(xiàn)真實(shí)世界的大規(guī)模部署,不僅限于結(jié)構(gòu)化的工業(yè)場景,還將在今年鋪開商超、便利店等商業(yè)場景,甚至部分家庭。
當(dāng)然,SOP系統(tǒng)的落地并非沒有挑戰(zhàn),帶寬成本、算力消耗以及安全性都是非常大的挑戰(zhàn),當(dāng)數(shù)百臺(tái)機(jī)器人同時(shí)回傳視頻流數(shù)據(jù)時(shí),對基礎(chǔ)設(shè)施的壓力是巨大的。
對此,羅劍嵐解釋稱,SOP可通過動(dòng)態(tài)重采樣策略更高效地利用真實(shí)世界經(jīng)驗(yàn),“簡單來說,如果集群中有100臺(tái)機(jī)器人,即便其中1臺(tái)噪聲很大,在其余99臺(tái)機(jī)器人的數(shù)據(jù)對沖下,該噪聲的影響也可以忽略不計(jì)?!?/p>
此外,為了防止機(jī)器人“學(xué)壞”,系統(tǒng)引入了強(qiáng)化學(xué)習(xí)和人類干預(yù)等機(jī)制,確保負(fù)面數(shù)據(jù)和失敗案例能被正確地轉(zhuǎn)化為價(jià)值,通過降低錯(cuò)誤行為的權(quán)重來引導(dǎo)模型優(yōu)化。
值得注意的是,SOP模式可能會(huì)一定程度影響機(jī)器人的商業(yè)模式。
按照羅劍嵐的說法,機(jī)器人過去被視為一次性交付的硬件產(chǎn)品,具備在線進(jìn)化能力后轉(zhuǎn)變?yōu)槌掷m(xù)服務(wù),可以簡單類比智能汽車通過付費(fèi)的軟件升級提升駕駛體驗(yàn),“(機(jī)器人)會(huì)從賣硬件一次性交付,到軟硬件一體的持續(xù)服務(wù),”羅劍嵐預(yù)判。


