小说,怎样写网络小说,官场小说排行榜

文｜硅谷101

具身智能是2025年的最大的“泡沫”嗎？

年初，宇樹(shù)突然放大招，發(fā)布了5900美元的R1人形機(jī)器人。要知道，就在一年前，業(yè)內(nèi)普遍認(rèn)為人形機(jī)器人的成本底線(xiàn)還在2到3萬(wàn)美元，宇樹(shù)這一招，相當(dāng)于把整個(gè)行業(yè)的價(jià)格預(yù)期直接打碎。

緊接著，F(xiàn)igure AI的估值從2024年的26億美元一路狂飆到390億美元，達(dá)到了15倍的增長(zhǎng)。投資方名單讀起來(lái)像科技圈的奧斯卡頒獎(jiǎng)典禮：微軟、OpenAI、英偉達(dá)、貝佐斯、英特爾、三星。

資本市場(chǎng)瘋狂押注，仿佛具身智能的未來(lái)近在咫尺。

但與此同時(shí)，特斯拉喊出要生產(chǎn)5000臺(tái)Optimus的豪言壯語(yǔ)，實(shí)際只組裝了大約1000臺(tái)就按下暫停鍵，面臨重新設(shè)計(jì)。馬斯克那句“特斯拉八成的價(jià)值將來(lái)自于Optimus”的豪言，在現(xiàn)實(shí)面前顯得有些尷尬。

這一冷一熱，實(shí)在是有點(diǎn)讓人困惑。具身智能到底發(fā)展到哪一步了？本篇文章就將從算法、硬件、數(shù)據(jù)、資本以及主要大玩家路線(xiàn)等等這幾個(gè)方向一一給大家展開(kāi)解讀。

01、具身智能是什么？為什么2025年爆發(fā)？

在聊行業(yè)現(xiàn)狀之前，先說(shuō)清楚什么是具身智能。

如果說(shuō)ChatGPT是“會(huì)說(shuō)話(huà)”的AI，那具身智能就是“會(huì)動(dòng)手”的AI。它的核心是VLA，Vision-Language-Action，視覺(jué)-語(yǔ)言-動(dòng)作模型。它把三個(gè)東西統(tǒng)一到一個(gè)神經(jīng)網(wǎng)絡(luò)里：Vision（視覺(jué)）：看到當(dāng)前的場(chǎng)景；Language（語(yǔ)言）：理解任務(wù)目標(biāo)和常識(shí)；Action（動(dòng)作）：輸出具體的控制指令。

簡(jiǎn)單說(shuō)就是三個(gè)能力：看得懂環(huán)境、聽(tīng)得懂指令、做得到動(dòng)作。

這和傳統(tǒng)機(jī)器人有什么不同？

打個(gè)比方，傳統(tǒng)工業(yè)機(jī)器人就像只會(huì)背固定臺(tái)詞的演員，你給它編好程序，它就按部就班執(zhí)行；但具身智能機(jī)器人更像會(huì)即興表演的演員，它能理解環(huán)境變化，自主做決策。

比如你讓它疊毛巾，傳統(tǒng)機(jī)器人需要毛巾每次擺放位置完全一樣。但具身智能機(jī)器人能識(shí)別：哦，這次毛巾皺了、偏了，那我調(diào)整一下動(dòng)作軌跡，照樣能疊好。

Dyna Robotics是硅谷炙手可熱的具身智能公司，一年前剛成立，如今A輪融資達(dá)到1.2億美元，估值6億美元，投資人包括英偉達(dá)。而“疊毛巾”這個(gè)任務(wù)正是讓Dyna最先火出圈的demo。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

VLA簡(jiǎn)單來(lái)說(shuō)就是我們拿了大模型領(lǐng)域VLM作為“backbone”（核心），但是我們會(huì)在最終輸出結(jié)果的時(shí)候，把這個(gè)結(jié)果轉(zhuǎn)化成在機(jī)器人領(lǐng)域可用的action（動(dòng)作）。action（動(dòng)作）直觀(guān)理解就是，比如說(shuō)我要把這個(gè)手臂移動(dòng)到某一個(gè)坐標(biāo)點(diǎn)的這些命令。

VLA其實(shí)大家詬病最多的是：為什么我們需要L（Language，即“語(yǔ)言”）？因?yàn)樵谶^(guò)去傳統(tǒng)的機(jī)器人算法里面，很多都是純基于視覺(jué)。但是你仔細(xì)去想，其實(shí)你大腦其實(shí)會(huì)產(chǎn)生類(lèi)似于語(yǔ)言的東西，去告訴你在一個(gè)長(zhǎng)線(xiàn)任務(wù)中，到底你第一步做什么，第二步做什么。

L的作用就在于，對(duì)于一些非常復(fù)雜的任務(wù)，它是可以通過(guò)在大語(yǔ)言上面已經(jīng)訓(xùn)練出來(lái)很多邏輯性的東西（去處理），比如說(shuō)你要喝水，它就會(huì)知道你需要找杯子或者找瓶子。這個(gè)是通過(guò)大語(yǔ)言模型已經(jīng)直接可以給你的一些東西。利用VLA的主要目的，其實(shí)就是如何把Language（語(yǔ)言）跟Vision（視覺(jué)）夠更好地結(jié)合起來(lái)，否則你如果只有Vision（視覺(jué)），你能做的任務(wù)可能就都是短線(xiàn)的，你做不了任何長(zhǎng)線(xiàn)的、需要去做推理的一些任務(wù)，所以這是我們?yōu)槭裁捶浅?zhuān)注地引入語(yǔ)言這部分的主要原因。

這就是質(zhì)的飛躍：機(jī)器人不再是執(zhí)行固定程序的機(jī)械臂，而是通過(guò)視覺(jué)-語(yǔ)言-動(dòng)作的集合，能理解、能規(guī)劃、能適應(yīng)的智能體。

具身智能不是新概念，為什么2025年突然爆發(fā)？有這三個(gè)因素。

第一，大模型本身已經(jīng)趨近于成熟。

無(wú)論是OpenAI還是其他公司近期發(fā)布的大模型，能力提升已更多體現(xiàn)為增量式演進(jìn)，而非早期從GPT-3.5到GPT-4那樣的跨越式躍遷。在這一背景下，大模型的整體能力正在趨于穩(wěn)定，且已經(jīng)足以作為具身智能系統(tǒng)的可靠基礎(chǔ)能力層。

ChatGPT證明了，大語(yǔ)言模型能理解復(fù)雜指令、做推理規(guī)劃。這套能力可以遷移到機(jī)器人上：你說(shuō)“幫我做早餐”，它能規(guī)劃出“先拿雞蛋、再打蛋、然后開(kāi)火煎”這樣的多步驟序列。

第二，算力價(jià)格腰斬再腰斬。隨著芯片廠(chǎng)商不斷推出性能更強(qiáng)的新一代芯片，等效算力的單位成本呈現(xiàn)長(zhǎng)期下降趨勢(shì)，往往每隔幾年，獲得同等算力所需的成本就會(huì)降至此前的一半。

2023年，租一張NVIDIA H100 GPU還是天價(jià)?，F(xiàn)在，云服務(wù)的算力價(jià)格戰(zhàn)愈演愈烈，訓(xùn)練大模型的成本大幅降低。以前只有頭部公司玩得起的游戲，現(xiàn)在創(chuàng)業(yè)公司也能上桌。

第三，硬件供應(yīng)鏈成熟。

機(jī)器人硬件整體的零部件成熟度已經(jīng)相對(duì)較高。尤其是在過(guò)去一年人形機(jī)器人熱潮的推動(dòng)下，大量資本和工程資源被投入到核心基礎(chǔ)部件的研發(fā)中，包括電機(jī)、減速器等關(guān)鍵組件，使得相關(guān)技術(shù)持續(xù)成熟的同時(shí)，成本也在不斷下降。

宇樹(shù)直接把價(jià)格打到5900美元，此前，行業(yè)普遍認(rèn)為2-3萬(wàn)美元的區(qū)間已經(jīng)能實(shí)現(xiàn)規(guī)模化生產(chǎn)。成本曲線(xiàn)的陡降，讓商業(yè)化不再是天方夜譚。

這三股力量疊加，把具身智能從實(shí)驗(yàn)室推向了商業(yè)化的前夜。但這不是盲目的樂(lè)觀(guān)，而是基于技術(shù)成熟度的理性判斷。所以，目前具身智能的能力邊界在哪里，它能做什么？

02、機(jī)器人現(xiàn)在能做什么？

Chapter 2.1 已經(jīng)能做的事情

我們先來(lái)說(shuō)說(shuō)能做到的事情：工業(yè)和商業(yè)場(chǎng)景已經(jīng)有實(shí)際應(yīng)用了。

疊毛巾、疊衣服，聽(tīng)起來(lái)簡(jiǎn)單，但Dyna的機(jī)器人能做到24小時(shí)疊700條毛巾，成功率99.4%。這在酒店、洗衣房已經(jīng)是實(shí)打?qū)嵉纳a(chǎn)力。而且他們的基礎(chǔ)模型里面包含了各種各樣的場(chǎng)景數(shù)據(jù)，像切菜、切水果，準(zhǔn)備食物，早餐清掃和物流分揀。

寶馬集團(tuán)BMW的工廠(chǎng)里，F(xiàn)igure的機(jī)器人在做簡(jiǎn)單裝配和物料搬運(yùn)。Agility Robotics的Digit在倉(cāng)儲(chǔ)物流場(chǎng)景搬箱子。1X也將向瑞典巨頭EQT交付最多1萬(wàn)臺(tái)1X Neo人形機(jī)器人，主要應(yīng)用于制造、倉(cāng)儲(chǔ)、物流等工業(yè)場(chǎng)景。更別提亞馬遜已經(jīng)部署了100萬(wàn)臺(tái)專(zhuān)用機(jī)器人，幾乎要超過(guò)其156萬(wàn)人類(lèi)員工的數(shù)量。

這些都不是Demo，是真實(shí)在跑的商業(yè)項(xiàng)目。這就是“理性前行”——不求全能，但求實(shí)用。

Chapter 2.2：正在攻克的任務(wù)

目前有什么還做不到，頭部公司正在攻克的任務(wù)呢？比如說(shuō)：中等難度的任務(wù)，像做早餐。

這是個(gè)“長(zhǎng)線(xiàn)任務(wù)”，需要規(guī)劃多個(gè)步驟：拿食材、切菜、擺盤(pán)、開(kāi)火、翻炒。每一步都要精準(zhǔn)執(zhí)行，還得控制力度，不能把雞蛋捏碎，也不能切菜切到手。Dyna最新的demo顯示已經(jīng)攻克了做早餐這個(gè)長(zhǎng)線(xiàn)任務(wù)。

而Figure也展示過(guò)兩臺(tái)機(jī)器人協(xié)同工作的Demo，一臺(tái)遞工具，一臺(tái)操作。這在家用場(chǎng)景很有用，但穩(wěn)定性還在打磨。

Chapter 2.3：還做不到的事情

而最難的是家務(wù)。因?yàn)槊總€(gè)家庭環(huán)境都不一樣。光照變化、物品擺放、家庭成員走動(dòng)，這些都是“非結(jié)構(gòu)化環(huán)境”的挑戰(zhàn)。

相對(duì)來(lái)說(shuō)，工廠(chǎng)是“結(jié)構(gòu)化環(huán)境”，光線(xiàn)固定、物品位置固定、流程標(biāo)準(zhǔn)化。但家里完全是另一回事。而且家務(wù)還有個(gè)致命要求：零容錯(cuò)。機(jī)器人在工廠(chǎng)打碎個(gè)零件，損失可控。在家里打碎碗、傷到人，那就是事故。

王浩自變量機(jī)器人CTO

比如說(shuō)機(jī)器人執(zhí)行任務(wù)的時(shí)候，桌布上有一個(gè)小的褶皺，你的杯子可能放置不穩(wěn)，可能有一個(gè)透明物體反光，它剛好干擾了相機(jī)等等。這些微小的物理變化，人類(lèi)其實(shí)可以憑直覺(jué)和豐富的經(jīng)驗(yàn)去瞬間適應(yīng)的，但由于非常依賴(lài)于數(shù)據(jù)驅(qū)動(dòng)，AI大模型它面臨這些新的挑戰(zhàn)，它不一定能真正去感受到。

所以，機(jī)器人進(jìn)家庭，技術(shù)門(mén)檻比進(jìn)工廠(chǎng)高得多。但這不意味著遙不可及。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

我們是覺(jué)得，最開(kāi)始肯定是在我們當(dāng)前在開(kāi)拓的一些市場(chǎng)，比如商用服務(wù)，商用的一些人工的部分，就是和人工一起去完成一些任務(wù)，這樣的一些場(chǎng)景。但是我們覺(jué)得家用其實(shí)也沒(méi)有那么遙遠(yuǎn)，并不需要完整的、非常通用的AGI。你可能只需要幾個(gè)任務(wù)就可以進(jìn)入到家庭的場(chǎng)景里，先讓機(jī)器人在家里面干起活來(lái)，然后逐漸地通過(guò)模型的迭代讓它產(chǎn)生更多的能力。

當(dāng)然我們的硬件成本降到普通家庭可承擔(dān)的范圍內(nèi)，我們可能就會(huì)優(yōu)先，比如說(shuō)我先以疊衣服的功能賣(mài)給家庭，然后逐漸去拓展一些其他的功能。所以這個(gè)時(shí)間線(xiàn)應(yīng)該也不遙遠(yuǎn)，可能也就在1~2年左右。

這就是“理性前進(jìn)”——不是等到機(jī)器人變成科幻電影里的全能管家再推向市場(chǎng)，而是從一個(gè)明確的、用戶(hù)真正需要的功能切入，逐步迭代。

03、2025年的技術(shù)突破

雖然挑戰(zhàn)重重，但2025年確實(shí)有幾個(gè)值得關(guān)注的技術(shù)突破。業(yè)內(nèi)人士很坦誠(chéng)地告訴我們，每一個(gè)突破都不是革命性的，但都是實(shí)實(shí)在在的進(jìn)步。

Chapter 3.1 突破點(diǎn)1：雙系統(tǒng)架構(gòu)流行起來(lái)

很多公司開(kāi)始采用所謂“System 1 + System 2”的架構(gòu)。

System 1是“快思考”，負(fù)責(zé)反射性動(dòng)作，比如抓取、移動(dòng)，參數(shù)量小，響應(yīng)快，可能只有8000萬(wàn)參數(shù)。

System 2是“慢思考”，負(fù)責(zé)復(fù)雜規(guī)劃，比如“做早餐”這種多步驟任務(wù)，參數(shù)量大，可能有70億參數(shù)。

這種分工很像人類(lèi)大腦：你伸手接球是本能反應(yīng)，但規(guī)劃一頓飯需要仔細(xì)思考。

Figure AI的Helix模型就是這個(gè)架構(gòu)的代表作。它們?cè)诤蚈penAI“分手”后，兩周內(nèi)迅速推出這個(gè)自研模型，創(chuàng)新性地用單一神經(jīng)網(wǎng)絡(luò)控制整個(gè)上半身的35個(gè)自由度，還能同時(shí)控制兩臺(tái)機(jī)器人協(xié)作。

這種架構(gòu)的成功，證明了機(jī)器人基礎(chǔ)模型和大語(yǔ)言模型的Scaling Law可能不一樣——不是越大越好，而是要找到合適的參數(shù)分配策略。

Chapter 3.2 突破點(diǎn)2：合成數(shù)據(jù)的革命

機(jī)器人數(shù)據(jù)為什么這么貴？原因也很簡(jiǎn)單：因?yàn)槿祟?lèi)一天只有24小時(shí)，收集真實(shí)操作數(shù)據(jù)太慢太貴。

NVIDIA的解決方案是：用模擬器生成合成數(shù)據(jù)。他們展示過(guò)，11小時(shí)內(nèi)生成78萬(wàn)條操作軌跡。相當(dāng)于6500小時(shí)或連續(xù)九個(gè)月的人類(lèi)演示數(shù)據(jù)。雖然合成數(shù)據(jù)和真實(shí)數(shù)據(jù)有差距，但至少解決了“數(shù)據(jù)荒”的燃眉之急。

但這里有個(gè)關(guān)鍵的技術(shù)權(quán)衡。

York Yang

Dyna Robotics聯(lián)合創(chuàng)始人

因?yàn)槲覀冎耙埠屯Χ嘧龃笳Z(yǔ)言模型的這些人聊過(guò)，他們已經(jīng)發(fā)現(xiàn)，語(yǔ)言方向的數(shù)據(jù)，哪怕用很多低質(zhì)量數(shù)據(jù)，比如一堆文本，中間插了一段廣告，然后再是接著文本，就這樣的數(shù)據(jù)它一樣能訓(xùn)練出比較好的模型。因?yàn)槟Ｐ退吹臄?shù)據(jù)足夠多之后，它自動(dòng)就會(huì)過(guò)濾掉廣告。但是機(jī)器人當(dāng)前我們覺(jué)得scaling（規(guī)?；└嗟氖莵?lái)自于比較高質(zhì)量的數(shù)據(jù)。你如果囊括了很多很繁雜的數(shù)據(jù)在里面，機(jī)器人模型可能就不知道我要pay attention（注意力集中）在哪一個(gè)地方，所以最終它其實(shí)出來(lái)的效果并沒(méi)有那么好。

Chapter 3.3 突破點(diǎn)3：跨機(jī)器人泛化能力

Physical Intelligence的π0模型、開(kāi)源的OpenVLA模型都能控制多種不同的機(jī)器人。同一套模型或策略，不需要為每一種機(jī)器人重新訓(xùn)練，就能夠在不同形態(tài)、不同硬件配置的機(jī)器人上有效工作，這就叫跨機(jī)器人泛化能力。

這很重要。以前每種機(jī)器人都要單獨(dú)訓(xùn)練模型，成本高昂。現(xiàn)在一個(gè)模型適配多種機(jī)器人，數(shù)據(jù)可以共享，成本大幅降低。

但技術(shù)難點(diǎn)也很明顯：不同機(jī)器人的動(dòng)作空間差異巨大，手臂長(zhǎng)短不一、關(guān)節(jié)數(shù)量不同，怎么讓一個(gè)模型都能控制好？

這種在完全陌生環(huán)境也能工作的能力，不是100%完美，但已經(jīng)是實(shí)質(zhì)性的進(jìn)步。

Chapter 3.4 突破點(diǎn)4：多機(jī)協(xié)同

Figure展示過(guò)用單一神經(jīng)網(wǎng)絡(luò)協(xié)調(diào)兩臺(tái)機(jī)器人協(xié)作。創(chuàng)新性地用單一神經(jīng)網(wǎng)絡(luò)，控制整個(gè)上半身的35個(gè)自由度，同時(shí)還能控制兩臺(tái)機(jī)器人協(xié)作。

聽(tīng)起來(lái)簡(jiǎn)單，實(shí)際上難度很高。兩臺(tái)機(jī)器人要互相配合，時(shí)序、力度、位置都要精準(zhǔn)同步。這在未來(lái)工廠(chǎng)場(chǎng)景會(huì)很有用，但現(xiàn)在還處于早期驗(yàn)證階段。

這些技術(shù)突破，沒(méi)有一個(gè)是顛覆性的，但每一個(gè)都在扎實(shí)推進(jìn)。這正是2025年的特點(diǎn)：不再追求炫酷的Demo，而是在可驗(yàn)證、可量化、可復(fù)現(xiàn)的方向上穩(wěn)步前進(jìn)。

技術(shù)突破是一方面，但行業(yè)里還有幾座大山?jīng)]翻過(guò)去。清楚認(rèn)識(shí)這些難題，恰恰是“理性前進(jìn)”的前提，也讓現(xiàn)在的具身智能來(lái)到了大爆發(fā)的前夜。

04、沒(méi)解決的核心問(wèn)題

Chapter 4.1 難題1：數(shù)據(jù)困境

首先，是數(shù)據(jù)困境。ChatGPT訓(xùn)練用了萬(wàn)億級(jí)token，相當(dāng)于把整個(gè)互聯(lián)網(wǎng)的文字都喂給它了。

但機(jī)器人操作數(shù)據(jù)極度稀缺。Google訓(xùn)練RT-2模型，花了17個(gè)月在真實(shí)廚房收集13萬(wàn)條數(shù)據(jù)，場(chǎng)景泛化能力依然有限。

為什么機(jī)器人數(shù)據(jù)這么難收集？因?yàn)樾枰鎸?shí)機(jī)器人在真實(shí)環(huán)境操作，每一條數(shù)據(jù)都要花錢(qián)花時(shí)間，出錯(cuò)還可能損壞設(shè)備。這不像文本數(shù)據(jù)，爬蟲(chóng)跑一跑就有了。所以大多數(shù)機(jī)器人基礎(chǔ)模型仍依賴(lài)于少量真實(shí)數(shù)據(jù)加大量模擬合成數(shù)據(jù)加強(qiáng)化學(xué)習(xí)/自監(jiān)督方法。

柯麗一鳴 Physical Intelligence研究員

一個(gè)人的一生假設(shè)是100年的話(huà)，大概我們很粗略的算就是100萬(wàn)個(gè)小時(shí)，我覺(jué)得現(xiàn)在在我的目所能及或者我公開(kāi)信息看到的范圍里，好像沒(méi)有人有100萬(wàn)小時(shí)的數(shù)據(jù)集，我是這么猜想的。

我會(huì)覺(jué)得什么時(shí)候我們能夠收到100萬(wàn)小時(shí)等同于一個(gè)人一生的物理經(jīng)驗(yàn)的數(shù)據(jù)，我覺(jué)得可能我們才開(kāi)始后面的探索。

如果說(shuō)數(shù)據(jù)是機(jī)器人的“石油”，但現(xiàn)在這口井還沒(méi)打出來(lái)。

Chapter 4.2 難題2：Sim-to-Real Gap

在虛擬世界訓(xùn)練機(jī)器人很便宜，可以同時(shí)跑幾萬(wàn)個(gè)模擬器。但虛擬世界永遠(yuǎn)不等于真實(shí)世界。就像你玩賽車(chē)游戲很厲害，不代表真的會(huì)開(kāi)F1。

真實(shí)世界的摩擦力、柔軟度、光線(xiàn)變化太復(fù)雜，仿真只能還原部分真實(shí)物理特性。剩下的就是機(jī)器人從模擬器到真實(shí)世界“水土不服”的根源。

NVIDIA的Genesis和Isaac模擬器在努力縮小這個(gè)gap（差距），但完全消除還需要時(shí)間。

Chapter 4.3 難題3：Embodiment Gap

人手有27個(gè)關(guān)節(jié)，能感知壓力、溫度、質(zhì)地。機(jī)器人的靈巧手通常只有15-22個(gè)關(guān)節(jié)，傳感器也沒(méi)那么精細(xì)。即使完美模仿人類(lèi)的動(dòng)作軌跡，效果也不同。人類(lèi)能輕柔地拿起雞蛋，機(jī)器人可能一用力就捏碎。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

第一，人類(lèi)的手和機(jī)器人的手，如果你想讓它這個(gè)能力遷移得很好，需要做得非常接近。這也是為什么現(xiàn)在有好多人在做很靈巧的靈巧手，非常接近人的自由度，這件事本身是一件非常困難的事情。

第二，但你再接近，它也不是完全一樣。所以在機(jī)器人的數(shù)據(jù)和人的數(shù)據(jù)中間還是會(huì)有一個(gè)鴻溝，就我們所謂的embodiment gap，這個(gè)embodiment gap在當(dāng)前學(xué)術(shù)界也好、工業(yè)界也好，大家都公認(rèn)是一個(gè)比較難解決的問(wèn)題。所以這樣的數(shù)據(jù)遷移的效率會(huì)比較低，哪怕你采集了很多數(shù)據(jù)，如果只有30%或者50%可用，你的總數(shù)量就會(huì)需要去乘以可能性的數(shù)字，所以這是它的一定的局限性。

這就意味著，特斯拉想用YouTube上海量人類(lèi)視頻訓(xùn)練Optimus的策略，面臨巨大的技術(shù)挑戰(zhàn)。這也是為什么特斯拉在生產(chǎn)了1000臺(tái)后暫停重新設(shè)計(jì)。理想很美好，現(xiàn)實(shí)很骨感。

Chapter 4.4 難題4：可靠性

ChatGPT回答錯(cuò)了，用戶(hù)笑笑就過(guò)去了。機(jī)器人動(dòng)作錯(cuò)了，可能砸壞東西、傷到人。這是質(zhì)的區(qū)別。

具身智能必須達(dá)到極高的可靠性，才能真正走進(jìn)工廠(chǎng)、走進(jìn)家庭。這個(gè)標(biāo)準(zhǔn)比大語(yǔ)言模型嚴(yán)苛得多。

Chapter 4.5 難題5：成本困境

目前人形機(jī)器人價(jià)格需要降到2萬(wàn)美元左右，才能在物流等場(chǎng)景形成足夠吸引力。

但價(jià)格下降需要規(guī)模化生產(chǎn)。規(guī)?；a(chǎn)需要大量訂單。大量訂單需要價(jià)格足夠低。

這是個(gè)循環(huán)困境，需要有人先打破僵局。宇樹(shù)的5900美元定價(jià)就是在嘗試打破這個(gè)僵局，但能否引發(fā)價(jià)格戰(zhàn)，帶動(dòng)整個(gè)行業(yè)降本，還需要觀(guān)察。

認(rèn)清這些難題，不是悲觀(guān)，而是理性。正是因?yàn)槟壳俺鮿?chuàng)公司們都很實(shí)在地承認(rèn)這些瓶頸存在，具身智能才來(lái)到了爆發(fā)的前夜。

05、主要玩家和技術(shù)路線(xiàn)

Chapter 5.1 硬件巨頭：Tesla、Figure

這一派公司包括了特斯拉和Figure，他們的策略是軟硬件一體化，打造數(shù)據(jù)閉環(huán)。

Tesla利用FSD自動(dòng)駕駛技術(shù)的積累，把視覺(jué)感知、路徑規(guī)劃的能力遷移到Optimus上，還能用工廠(chǎng)的生產(chǎn)線(xiàn)積累數(shù)據(jù)。前工程主管Milan Kovac說(shuō)得很直白：“我們只是從輪子上的機(jī)器人變成長(zhǎng)著腿的機(jī)器人?！?/p>

但現(xiàn)實(shí)比預(yù)期復(fù)雜。5000臺(tái)的目標(biāo)只完成了五分之一，就不得不暫停重新設(shè)計(jì)。這說(shuō)明即使是特斯拉這樣的巨頭，在embodiment gap面前也要低頭。

Figure則在和OpenAI“分手”后，獨(dú)立開(kāi)發(fā)了Helix模型，自己掌控技術(shù)路線(xiàn)。兩周內(nèi)推出的Helix模型，展示了他們確實(shí)有技術(shù)實(shí)力。15倍的估值漲幅，也證明資本市場(chǎng)對(duì)這條路線(xiàn)的認(rèn)可。

但他們真正商業(yè)化部署的也就幾十臺(tái)。Demo很精彩，規(guī)?；€在路上。第二派就是我們剛才提到的Physical Intelligence和Skuid AI。

Chapter 5.2 AI公司：PI和Skild AI

與多家同時(shí)押注硬件的機(jī)器人初創(chuàng)公司不同，這些公司的策略是模型先行，跨平臺(tái)適配。

Physical Intelligence的π0模型不綁定特定硬件，能適配多種機(jī)器人。他們的邏輯是：先把模型能力做強(qiáng)，硬件可以后續(xù)選擇最優(yōu)方案。

而另外一家則是Skild AI，一家專(zhuān)注于構(gòu)建機(jī)器人基礎(chǔ)模型的軟件公司。Skild AI核心方向同樣是打造一種與具體機(jī)器人形態(tài)無(wú)關(guān)的通用基礎(chǔ)模型，可根據(jù)不同機(jī)器人平臺(tái)和應(yīng)用場(chǎng)景進(jìn)行適配與定制。

今年7月，Skild AI發(fā)布了其通用機(jī)器人系統(tǒng)Skild Brain，并公開(kāi)演示視頻，展示機(jī)器人完成拿取餐具、上下樓梯等操作能力。近期軟銀與英偉達(dá)正計(jì)劃對(duì)它投資10億美元，把它的估值提升到140億美元。

Chapter 5.3 生態(tài)平臺(tái)：NVIDIA、Google

第三類(lèi)是主打生態(tài)的平臺(tái)。

NVIDIA提供模擬器和算力基礎(chǔ)設(shè)施，推出GR00T N1并開(kāi)源，但你要用就得用全套NVIDIA生態(tài)。Google則在學(xué)術(shù)研究上持續(xù)投入，RT系列模型影響了整個(gè)學(xué)術(shù)界。

他們?yōu)檎麄€(gè)行業(yè)提供“水電煤”。誰(shuí)能制定行業(yè)標(biāo)準(zhǔn)，誰(shuí)就掌握了生態(tài)控制力。

這三種路線(xiàn)，都在前進(jìn)。沒(méi)有哪一派已經(jīng)占據(jù)絕對(duì)優(yōu)勢(shì)，大家都在試錯(cuò)、迭代、調(diào)整。

06、總結(jié)與展望

未來(lái)還未來(lái)，已經(jīng)不遙遠(yuǎn)

回到開(kāi)頭的問(wèn)題：具身智能是泡沫還是未來(lái)？

答案是：2025年，具身智能正在從“先鋒亮相”轉(zhuǎn)向“理性前行”。

技術(shù)上，大模型+機(jī)器人的結(jié)合已經(jīng)跑通，但遠(yuǎn)未成熟。數(shù)據(jù)、泛化、可靠性這些核心難題還沒(méi)解決。

如果用“GPT時(shí)刻”來(lái)類(lèi)比，自變量機(jī)器人CTO王浩認(rèn)為，我們現(xiàn)在是GPT-2的水平。

王浩自變量機(jī)器人CTO

我會(huì)覺(jué)得現(xiàn)在就是在GPT-2的階段，其實(shí)我們現(xiàn)在基本上已經(jīng)知道規(guī)?；俏ㄒ坏囊粋€(gè)可靠路徑了，所以我們就是要在這個(gè)階段去瘋狂地積累數(shù)據(jù)，提升模型規(guī)模，同時(shí)去搭建真實(shí)具身的這種基礎(chǔ)設(shè)施。我的預(yù)測(cè)會(huì)到1~2年的時(shí)間，我們完全可以達(dá)到GPT-3的水平。

注意，是GPT-3，不是GPT-4。這就是毫不花哨的判斷。由于研究員們看到了這種規(guī)?；瘞?lái)的提升，所以路徑和目標(biāo)更加明確，也更加唯一。

而在商業(yè)上，工業(yè)場(chǎng)景開(kāi)始試點(diǎn)，倉(cāng)儲(chǔ)、制造、服務(wù)業(yè)都有落地案例。但大規(guī)模商用可能還需要2-3年時(shí)間。

York Yang Dyna Robotics聯(lián)合創(chuàng)始人

我們自己的目標(biāo)是在明年我們至少希望在商用場(chǎng)景有比較大規(guī)模的部署。家用我們會(huì)擇機(jī)看，這個(gè)時(shí)間線(xiàn)應(yīng)該也不遙遠(yuǎn)，可能也就在1~2年左右。

投資上，可以說(shuō)泡沫和機(jī)會(huì)并存。有公司估值飆升，也有公司暫停生產(chǎn)，也有公司錢(qián)燒光了而破產(chǎn)。

開(kāi)源機(jī)器人公司K-Scale Labs融資失敗倒閉，F(xiàn)igure AI拿錢(qián)拿到手軟，這兩個(gè)極端同時(shí)存在，說(shuō)明市場(chǎng)正在分化，雖然具身智能的長(zhǎng)期趨勢(shì)確定，但短期波動(dòng)劇烈。

而具身智能第一個(gè)“殺手級(jí)”應(yīng)用場(chǎng)景會(huì)是什么？

有可能是家務(wù)任務(wù)，也可能是倉(cāng)儲(chǔ)物流，或者是餐飲清潔服務(wù)。而無(wú)論是哪個(gè)場(chǎng)景，都已經(jīng)有重量級(jí)玩家在布局。具身智能不是“會(huì)不會(huì)發(fā)生”的問(wèn)題，而是“什么時(shí)候發(fā)生”。

2025年，我們正站在這場(chǎng)革命的起點(diǎn)。行業(yè)不再只展示炫酷的Demo，而是開(kāi)始腳踏實(shí)地驗(yàn)證技術(shù)、打磨產(chǎn)品、尋找場(chǎng)景。

特斯拉暫停生產(chǎn)，不是失敗，是在重新設(shè)計(jì)，尋找更可靠的路徑。

Figure AI估值飆升，不只是資本炒作，而是他們交出了Helix這樣的實(shí)質(zhì)成果。

Dyna從疊毛巾切入，不是格局小，而是在積累數(shù)據(jù)飛輪，培養(yǎng)模型的學(xué)習(xí)能力。

Physical Intelligence部分開(kāi)源π0，不是不夠開(kāi)放，而是在商業(yè)利益和技術(shù)分享之間找平衡。

這種在現(xiàn)有基礎(chǔ)上穩(wěn)步提升，恰恰是行業(yè)走向成熟的標(biāo)志。2025年，具身智能行業(yè)已經(jīng)從“畫(huà)大餅”，進(jìn)化到卷起袖子和面團(tuán)。這個(gè)餅，正在一點(diǎn)一點(diǎn)，有分寸地，變成現(xiàn)實(shí)。

文｜硅谷101

具身智能是2025年的最大的“泡沫”嗎？

資本市場(chǎng)瘋狂押注，仿佛具身智能的未來(lái)近在咫尺。