由上海報(bào)業(yè)集團(tuán)作為指導(dǎo)單位、界面新聞主辦、梅賽德斯-奔馳作為戰(zhàn)略合作伙伴的第七屆【界面財(cái)經(jīng)年會(huì)】于12月18日在上海世博創(chuàng)意秀場(chǎng)成功舉辦。商湯絕影CTO肖楓發(fā)表主旨演講《讓每一輛車(chē)擁有「有趣的靈魂」》。
以下為主旨演講實(shí)錄:
大家好,我是來(lái)自商湯絕影的肖楓,今天非常有幸,我給大家分享一下我們最新的基于商湯流式多模態(tài)大模型的一個(gè)創(chuàng)新產(chǎn)品,它叫New Member,我們希望New Member能夠給每一輛車(chē)都帶來(lái)一個(gè)「有趣的靈魂」。
首先跟大家分享大模型進(jìn)入車(chē)艙的整體趨勢(shì)。從去年開(kāi)始大模型就開(kāi)始逐漸進(jìn)入智能車(chē)艙,帶來(lái)一個(gè)全新的智能化體驗(yàn)。大家可以感受到首先進(jìn)入的是一種工具的形態(tài),從案例角度來(lái)說(shuō),大家看見(jiàn)有了「車(chē)書(shū)」,有了「閑聊」,都是基于大模型,尤其是語(yǔ)言大模型。記得「車(chē)書(shū)」有個(gè)挺有意思的例子,在網(wǎng)上說(shuō),有人指著一個(gè)儀表屏幕上面的標(biāo)識(shí)問(wèn):“我突然看見(jiàn)一個(gè)小男孩背著一個(gè)寶劍在跳舞,這是什么?”
其實(shí)這個(gè)就是一個(gè)沒(méi)有系安全帶的提醒,但很多新手司機(jī)都不太清楚,然后大模型可以告訴你,“這是你沒(méi)有系安全帶,我在提醒”。我只是舉個(gè)例子,來(lái)說(shuō)明一個(gè)簡(jiǎn)單的工具模式是什么樣的。
然后大模型不斷進(jìn)化,賦予座艙的能力也越來(lái)越強(qiáng),我們把它稱為是一種助理模式。助理模式的典型的一個(gè)案例是大家熟知的Agent,也叫智能體。有了智能體以后,工具就變成了助手,比以前更強(qiáng)大了,能夠完成的不只是簡(jiǎn)單的單一性的任務(wù)了。它可以做一些復(fù)雜任務(wù),比如說(shuō)現(xiàn)在大家都希望有一個(gè)旅程的推薦,智能體可以用一種非常泛化的方式,幫忙尋找更合適你的路線餐館等等。
大家在一些車(chē)?yán)锩嬉呀?jīng)感受到了這種能力,今天我給大家?guī)?lái)的是,可以被認(rèn)為是第三代的車(chē)艙大模型能力,這個(gè)能力最大的一個(gè)區(qū)別是,前面不管是工具還是助理智能體,首先車(chē)主或者乘客需要知道自己要什么,但在車(chē)?yán)锩娆F(xiàn)在場(chǎng)景越來(lái)越多,科技感越來(lái)越強(qiáng),很多車(chē)主他可能很難描述要什么,也就無(wú)法下達(dá)準(zhǔn)確的指令。
我們的New Member是一種主動(dòng)性的、有互動(dòng)能力的、人格化的體現(xiàn),它能主動(dòng)察言觀色,看到的這個(gè)環(huán)境里面用戶需要什么,然后可以推薦一個(gè)服務(wù),服務(wù)的內(nèi)容也是動(dòng)態(tài),會(huì)根據(jù)每個(gè)人的習(xí)慣,根據(jù)車(chē)?yán)锩娴木C合信息來(lái)提供服務(wù),能夠及時(shí)和你主動(dòng)交互,實(shí)現(xiàn)一個(gè)更好的家庭成員般的服務(wù)體驗(yàn)。
一個(gè)有趣的靈魂是怎么形成的,我們提煉了幾個(gè)關(guān)鍵要素。
首先它要能夠察言觀色,始終一直在觀察你車(chē)?yán)锩嫒恕④?chē)、物、環(huán)境的這種變化。這里面核心的技術(shù)是商湯絕影的原生流式多模態(tài)大模型,多模態(tài)感知和理解能力非常強(qiáng)。
第二個(gè)叫無(wú)時(shí)不在,我們專(zhuān)門(mén)為這個(gè)構(gòu)建了一個(gè)持續(xù)推理的框架,來(lái)支撐著New Member中流式多模態(tài)大模型的持續(xù)的運(yùn)轉(zhuǎn)和推理。
在這個(gè)過(guò)程中我們會(huì)做到第三步,叫心有靈犀。如何做到心有靈犀?實(shí)際上就是把一些我們?cè)谌?、?chē)、物和環(huán)境里面的一些數(shù)據(jù),能夠通過(guò)模型的推理形成記憶,通過(guò)記憶,把服務(wù)真正推動(dòng)了車(chē)主和乘客,實(shí)現(xiàn)兩者之間的一個(gè)新的聯(lián)系。
接下來(lái),展開(kāi)介紹前面三個(gè)能力背后絕影的技術(shù)。
首先給大家講的是商湯絕影的原生流式多模態(tài)大模型,這是端到端的模型,現(xiàn)在很多多模態(tài)模型其實(shí)有好幾段組成,相當(dāng)于把圖片轉(zhuǎn)換成文字,把視頻轉(zhuǎn)換成圖片再轉(zhuǎn)換成文字,這些和原生流式多模態(tài)大模型相比,雖然都是多模態(tài),但我們的是原生的端到端,我們可以通過(guò)感知文字、圖片、視頻等信息,直接端到端的輸出音頻、文字、視頻等,所以整體效率非常高。
接下來(lái)是類(lèi)人記憶框架。剛才談了很多,我們?cè)跓o(wú)時(shí)無(wú)刻不斷觀察人、車(chē)、路、環(huán)境的一些數(shù)據(jù),這些觀察到的數(shù)據(jù)我們稱為叫臨時(shí)記憶。這些臨時(shí)的記憶通過(guò)數(shù)據(jù)管線,通過(guò)我們的大模型的推理,可以做加強(qiáng)反思等,形成各種人和人之間的關(guān)系,人和物之間的關(guān)聯(lián),還有人和車(chē)之間的一些關(guān)系,這些關(guān)系形成了長(zhǎng)期記憶。
基于每天不同的場(chǎng)景,通過(guò)從臨時(shí)記憶和長(zhǎng)期記憶中提取重要信息,對(duì)這些信息實(shí)時(shí)處理和分析,作出決策或者解決問(wèn)題,這就是場(chǎng)景記憶。不同的記憶會(huì)塑造不同的New Member。
最后,為了實(shí)現(xiàn)人和車(chē)之間的心有靈犀,這要求服務(wù)是無(wú)時(shí)不在的,我們?cè)O(shè)計(jì)了Always-on持續(xù)推理框架,這個(gè)框架目前是端云一體的架構(gòu),80%的場(chǎng)景會(huì)在端上操作,但是考慮到云上的一些核心的擴(kuò)展和推理,有一些強(qiáng)大的反思,我們稱為叫慢思考能力,所以還有20%場(chǎng)景就會(huì)放在云端,但在整個(gè)場(chǎng)景的融合用戶是沒(méi)有感知的。
說(shuō)到數(shù)據(jù),大家都會(huì)比較敏感。一個(gè)是安全方面,擔(dān)心私人的記憶是不是會(huì)被其他人看到或者聽(tīng)到。我們商湯絕影專(zhuān)門(mén)設(shè)計(jì)了一個(gè)隱私保護(hù)和數(shù)據(jù)安全的安全框架,來(lái)支撐整個(gè)New Member的持續(xù)可靠運(yùn)行,能夠保證整個(gè)數(shù)據(jù)記憶只會(huì)在生成數(shù)據(jù)的相應(yīng)環(huán)境下才會(huì)被觸達(dá),才會(huì)給用戶提供專(zhuān)屬的功能體驗(yàn)。
剛才說(shuō)了不少技術(shù)方面的一些信息,下面通過(guò)一個(gè)場(chǎng)景來(lái)演繹一下我們的產(chǎn)品和技術(shù)是怎么支撐的。周五下午,老丁和兒子豆豆一起上車(chē),他們不需要和導(dǎo)航說(shuō)目的地,New Member會(huì)根據(jù)數(shù)據(jù)和記憶進(jìn)行推理,就會(huì)主動(dòng)問(wèn)老丁是不是要帶豆豆去網(wǎng)球場(chǎng)打球,得到確認(rèn)后,就會(huì)主動(dòng)設(shè)置導(dǎo)航路線。
最后,我給大家介紹下,產(chǎn)品層面的一些場(chǎng)景和大模型,整個(gè)工作流是如何耦合的。前面我們提到的老丁帶孩子打網(wǎng)球的場(chǎng)景,用戶上車(chē)了以后,New Member會(huì)主動(dòng)詢問(wèn),這是因?yàn)锳lways-on持續(xù)運(yùn)行框架,它一直在記錄人、車(chē)服務(wù)環(huán)境的一些數(shù)據(jù),同時(shí)把這些數(shù)據(jù)轉(zhuǎn)化成為記憶,有了這些基礎(chǔ),會(huì)根據(jù)場(chǎng)景推理出你要去的目的地。此外,New Member根據(jù)不同的穿著會(huì)推薦不同的地方,會(huì)猜測(cè)你想要做什么事情,有時(shí)候也會(huì)給出一些建議。
為了和車(chē)企更好的合作,我們也打造了記憶的場(chǎng)景庫(kù),專(zhuān)門(mén)做了一些人設(shè),這些人設(shè)都會(huì)自動(dòng)的構(gòu)建出來(lái),通過(guò)大模型可以構(gòu)建出不同的人設(shè),車(chē)企可以利用這些基礎(chǔ)的場(chǎng)景庫(kù)進(jìn)行組合,或者進(jìn)行針對(duì)性訓(xùn)練,打造更合適車(chē)企風(fēng)格、滿足用戶需求的角色。
謝謝大家,因?yàn)楝F(xiàn)在有好幾個(gè)車(chē)企已經(jīng)都已經(jīng)開(kāi)始和我們絕影進(jìn)行合作,有些進(jìn)入了量產(chǎn)階段,相信大家很快能夠在車(chē)上看到并體驗(yàn)到“有趣的靈魂”。
作為國(guó)內(nèi)領(lǐng)先的原創(chuàng)財(cái)經(jīng)媒體,上海報(bào)業(yè)集團(tuán)丨界面新聞始終關(guān)注財(cái)經(jīng)領(lǐng)域最新動(dòng)態(tài),關(guān)注行業(yè)最新資訊,為品牌與企業(yè)提供市場(chǎng)的全面洞察,助力中國(guó)經(jīng)濟(jì)持續(xù)發(fā)展。
特別鳴謝本次2024財(cái)經(jīng)年會(huì)的戰(zhàn)略合作伙伴梅賽德斯-奔馳。作為汽車(chē)發(fā)明者,梅賽德斯-奔馳擁有著138年榮耀歷程,為廣大中國(guó)消費(fèi)者提供杰出的產(chǎn)品、服務(wù)及品牌體驗(yàn),實(shí)現(xiàn)對(duì)中國(guó)市場(chǎng)的長(zhǎng)期承諾。
歷經(jīng)70年時(shí)光流轉(zhuǎn),傳承11代,梅賽德斯-奔馳S級(jí)轎車(chē)以“世界,盡在于心”之格局,在大型豪華車(chē)領(lǐng)域開(kāi)創(chuàng)駕乘安全新境界、樹(shù)立數(shù)字豪華新標(biāo)桿。以數(shù)字豪華的智能人機(jī)交互體驗(yàn)、領(lǐng)先完備的駕駛輔助科技,開(kāi)創(chuàng)了豪華出行的全新時(shí)代。
年會(huì)最終解釋權(quán)歸界面新聞所有

