文|壹番財經(jīng) 鄭亦久
12月的第一天,字節(jié)跳動旗下的豆包突然推出的手機助手測試版,瞬間成為焦點。
它并不是單純豆包AI的升級版,而是一套試圖改變手機使用方式的系統(tǒng)級AI。它讓模型能夠像“人”一樣刷手機,從而以一種更高維度的方式接管用戶的意圖。
這種技術(shù)方向本身無疑是明確的,在移動端逐漸進入AI原生時代的當下,系統(tǒng)層面的會從傳統(tǒng)的點按界面,逐漸轉(zhuǎn)向自然語言理解與高度自動化執(zhí)行。
然而,當這套看似未來感十足的路線真正落地時,一個不難發(fā)現(xiàn)的結(jié)構(gòu)性障礙也隨之暴露出來——國產(chǎn)手機系統(tǒng)和軟件生態(tài)深度權(quán)限遠比想象中更難觸達,而豆包的愿景又高度依賴這種軟硬件的權(quán)限自由。
從這個角度來看,豆包最終可能被國內(nèi)復(fù)雜的生態(tài)結(jié)構(gòu)“推著”走向自研硬件,而不是停留在做一個助手應(yīng)用的層面。
01 怕玩手機累著,讓豆包來幫你“刷”
豆包手機助手在測試版中所呈現(xiàn)出的能力,明顯比市面絕大多數(shù)所謂的AI對話助手更為激進。
它基本是一套嘗試通過底層能力完成跨應(yīng)用動作的系統(tǒng)級協(xié)作方案。通過理解用戶的意圖,并將這些意圖自動拆解成一連串操作指令,再由系統(tǒng)級AI直接執(zhí)行。
如果從更宏觀的技術(shù)脈絡(luò)來看,豆包想做的,其實正是桌面端早已反復(fù)驗證過的“代理(Agent)”模式——像是目前給出的演示,幫你電商比價、外賣下單、聊微信等等。
當然在PC環(huán)境中,這種代理能夠借助相對開放的系統(tǒng)、窗口結(jié)構(gòu)與權(quán)限體系,順利完成自動化任務(wù),從出道即巔峰的Manus,到之后ChatGPT的代理,其實目前大廠都已經(jīng)給出了穩(wěn)定方案。
但手機作為一個封閉得多的生態(tài),情況就完全不同了。不論蘋果還是安卓作為移動系統(tǒng)限制更強、應(yīng)用之間的邊界更硬、可供調(diào)用的系統(tǒng)能力也更少。
桌面端代理能夠輕松實現(xiàn)的操作,一旦移植到手機上,立刻變成一系列需要深度系統(tǒng)權(quán)限才能完成的動作。
因此,豆包試圖在手機端復(fù)刻“全局代理”的企圖,難度實際上遠高于PC端的同類產(chǎn)品。它不僅要理解用戶的意圖,更要突破手機系統(tǒng)對跨應(yīng)用操作的天然封鎖。像是讀取微信聊天界面這種功能,一旦被騰訊盯上,視為某種程度的隱私風險,那正式版是否還能使用,尚未可知。
畢竟從目前的測試效果來看其試圖扮演的不再是一個“語音助手”,而是橫跨系統(tǒng)的AI“操作系統(tǒng)”。
這確實代表了未來手機交互的方向。然而,也正是這種對底層權(quán)限的高度依賴,讓豆包在現(xiàn)實中撞上了沉重的生態(tài)壁壘。
目前國內(nèi)的頭部手機廠商幾乎都在打造某種程度上的“AI原生系統(tǒng)”。小米、華為、OPPO、vivo甚至蘋果無一例外,都通過系統(tǒng)級集成來強化自己的生態(tài)閉環(huán)。
在這樣的背景下,他們不可能讓一個來自外部的第三方助手直接介入底層,也不可能讓渡關(guān)鍵的權(quán)限。
和中興努比亞工程機的合作,本質(zhì)上也揭示了同樣的問題:能夠與豆包深度合作的廠商,往往是生態(tài)規(guī)模有限的品牌,而真正具備影響力的頭部廠商,出于商業(yè)邏輯的天然對立,不可能放開權(quán)限。
因此,豆包現(xiàn)在處在一個尷尬的位置。一方面,它描繪的愿景合理且前沿;另一方面,它能否觸達這個愿景,卻并不取決于自身的技術(shù),而取決于系統(tǒng)權(quán)限是否能被開放。
02 “豆包手機”成唯一出路
當豆包選擇做這樣一款高度依賴系統(tǒng)級權(quán)限的助手時,它實際上已經(jīng)接受了一個隱含前提:如果未來要讓這套能力成為真正的“標準體驗”,它必須能直達軟硬件生態(tài)的核心。
而能操作的方式只有兩種:說服一家頭部廠商開放系統(tǒng)權(quán)限,或者自己做能完全掌控的硬件。
第一條路幾乎沒有現(xiàn)實可能。所有頭部廠商都在打造自己所謂的AI OS,它們不會允許一個外部助手成為系統(tǒng)級入口。
這意味著豆包不可能依靠現(xiàn)有廠商提供的底層權(quán)限來構(gòu)建自己的核心能力。事實上大概任何AI廠商都很難指望依靠第三方的硬件來實現(xiàn)自己的全部需求與野心。
Meta依托的是眼鏡,而阿里最近也推出了夸克AI眼鏡,其實多少也是在考慮尋求一個獨立的硬件入口。
這種趨勢在全球范圍內(nèi)正在發(fā)生。無論是OpenAI的輕量設(shè)備路線,還是Google對Pixel系列的深度整合,本質(zhì)都指向同一個方向:下一代AI智能硬件的核心不再是UI,而是AI邏輯。
在這個前提下,豆包要么成為別人系統(tǒng)的一部分,要么必須擁有自己的設(shè)備,并控制從硬件到OS的全鏈路。
對于豆包而言,問題大概不是要不要造硬件,而是不造硬件就無法實現(xiàn)愿景。事實上傳言字節(jié)開發(fā)智能眼鏡的消息由來已久,而收購多時的錘子硬件團隊顯然并不會完全閑著。
可以說在現(xiàn)有的產(chǎn)業(yè)格局下,這種“操作層”只有依附在它自己能掌控的硬件上,才有機會被完整實現(xiàn)。
豆包在發(fā)布手機助手時專門強調(diào)“不造手機”,但從技術(shù)方向、生態(tài)沖突到權(quán)限結(jié)構(gòu),未來打臉自己幾乎是必然會發(fā)生的事。

