在多模態(tài)大模型技術(shù)快速演進的今天,一個關(guān)鍵問題始終困擾著業(yè)界:大模型應(yīng)該向何處發(fā)展?是追求更大的參數(shù)規(guī)模,還是探索新的應(yīng)用范式?北大系A(chǔ)I企業(yè)明略科技用實踐給出了答案。
12月26日,在2025第三屆全國人工智能應(yīng)用場景創(chuàng)新挑戰(zhàn)賽(CICAS)姑蘇專項晉級賽中,明略科技(2718.HK)聯(lián)合北京大學(xué)的參賽項目《基于多模態(tài)大模型的品牌出海創(chuàng)意生成與情感鏈接智能平臺》從70余個參賽團隊中脫穎而出,斬獲“特等獎”殊榮,成功晉級全國總決賽。
明略科技不僅解決了具體應(yīng)用問題,更重要的是,改寫了多模態(tài)大模型的應(yīng)用范式,為AI技術(shù)從"通用智能"走向"專業(yè)智能"、從"內(nèi)容理解"走向"行為預(yù)測"提供了新的技術(shù)路徑。
從對話助手到操作智能體:Mano的范式創(chuàng)新
傳統(tǒng)大模型的定位,主要是"對話助手"——你問它答,它能理解你的問題,生成相應(yīng)的回答。但在實際應(yīng)用中,企業(yè)需要的往往不是"告訴我怎么做",而是"幫我做"。Mano靈巧手的創(chuàng)新,正是實現(xiàn)了從"對話助手"到"操作智能體"的范式轉(zhuǎn)變。
這一轉(zhuǎn)變的核心,是Mano突破了傳統(tǒng)大模型"只能對話不能操作"的局限。通過視覺理解、任務(wù)拆解、代碼生成、自主學(xué)習(xí)四大核心能力,Mano實現(xiàn)了VLA(視覺-語言-行動)模型的范式創(chuàng)新。
VLA模型的關(guān)鍵,在于將"視覺感知"、"語言理解"、"行動執(zhí)行"三者深度融合。傳統(tǒng)的多模態(tài)模型,通常只融合視覺和語言,輸出仍然是文本或圖像。VLA模型的突破在于,它的輸出是"行動"——點擊按鈕、填寫表單、提取數(shù)據(jù)等實際操作。
"這不僅是技術(shù)能力的擴展,更是應(yīng)用范式的革命。"明略科技技術(shù)團隊表示,"當大模型能夠'操作'而不僅僅是'對話',它就從助手變成了智能體,能夠真正替代人工完成復(fù)雜任務(wù)。"
Mano在OS-World評估基準中的表現(xiàn),充分證明了這一范式的價值。OS-World測試的是模型在真實操作系統(tǒng)環(huán)境中完成復(fù)雜任務(wù)的能力,比如"在瀏覽器中搜索信息并整理成表格"、"從多個網(wǎng)站采集數(shù)據(jù)并進行對比"等。Mano以54.0%的任務(wù)成功率刷新紀錄,在Special Model賽道排名第一,總榜僅次于Claude-Sonnet-4.5,位居第二。
這一成績的意義在于,Mano用72B參數(shù)實現(xiàn)了與千億級參數(shù)模型相當?shù)牟僮髂芰Α?我們不是追求最大的參數(shù)規(guī)模,而是在特定領(lǐng)域做深度優(yōu)化。"明略科技技術(shù)團隊解釋,"通過模型壓縮技術(shù)(榮獲AAAI 2026 Oral),我們在保證性能的同時,將模型規(guī)模控制在可私有化部署的范圍內(nèi)。"
更重要的是,Mano的自主學(xué)習(xí)能力,使其能夠持續(xù)進化。通過"探索→使用→自標注→再訓(xùn)練"的循環(huán),Mano能夠自主適應(yīng)新網(wǎng)站、新系統(tǒng),無需人工標注大量訓(xùn)練數(shù)據(jù)。這種自主學(xué)習(xí)機制,為操作智能體的規(guī)?;瘧?yīng)用提供了可能。
從客觀內(nèi)容到主觀感知:HMLLM的范式突破
如果說Mano改寫了大模型的"輸出范式"(從文本到行動),那么HMLLM則改寫了大模型的"輸入范式"(從客觀內(nèi)容到主觀感知)。
傳統(tǒng)的多模態(tài)模型,通常融合視覺、文本、音頻等"客觀內(nèi)容"信號。比如,一個視頻多模態(tài)模型,會分析畫面中有什么物體、說了什么話、播放了什么音樂。但它無法回答一個關(guān)鍵問題:觀眾看到這個視頻,會有什么感受?
HMLLM的突破,正是首次將腦電、眼動等"主觀感知"信號納入多模態(tài)建模,開創(chuàng)了"生理信號+內(nèi)容信號"融合的新范式。
這一范式的創(chuàng)新性在于,它不僅分析"內(nèi)容是什么",更預(yù)測"感受會如何"。通過采集1萬+真實受試者的腦電與眼動信號,構(gòu)建Video-SME與SPA-ADV兩大原創(chuàng)數(shù)據(jù)集,HMLLM學(xué)會了將內(nèi)容特征與生理反應(yīng)關(guān)聯(lián)起來。
當一個人看到某個畫面時,瞳孔會放大、腦電波會出現(xiàn)特定模式,這些都是真實感受的直接反映。HMLLM通過超圖結(jié)構(gòu),將視頻幀、音頻、人口特征與生理信號統(tǒng)一建模,實現(xiàn)了從“分析內(nèi)容”到“預(yù)測感受”的跨越。
HMLLM在ACM MM2024(CCF-A類國際頂級會議)上獲得最佳論文提名,提名率僅2%,充分證明了這一范式的學(xué)術(shù)價值。更重要的是,HMLLM的預(yù)測結(jié)果與真人主觀感受的一致性(R2)超過89%,證明了這一范式的實用價值。"
雙技術(shù)協(xié)同:從理解世界到操作世界和感知主觀
Mano和HMLLM兩項技術(shù)的價值,不僅在于各自的范式創(chuàng)新,更在于它們共同代表了多模態(tài)大模型發(fā)展的兩個重要方向。
第一個方向,是從"理解世界"到"操作世界"。傳統(tǒng)大模型擅長理解和生成內(nèi)容,但缺乏實際操作能力。Mano的突破,讓大模型能夠真正"動手",從被動的知識庫變成主動的執(zhí)行者。這一方向的應(yīng)用場景非常廣泛:
在營銷領(lǐng)域,Mano可以自動采集競品數(shù)據(jù)、監(jiān)測社媒輿情、分析廣告效果;
在RPA(機器人流程自動化)領(lǐng)域,Mano可以自動處理訂單、填寫表單、生成報告;
在數(shù)據(jù)治理領(lǐng)域,Mano可以自動清洗數(shù)據(jù)、標注數(shù)據(jù)、驗證數(shù)據(jù)質(zhì)量。
Mano的價值在于,它讓AI從告訴你怎么做變成幫你做,這是從工具到智能體的跨越。
第二個方向,是從"分析內(nèi)容"到"預(yù)測感受"。傳統(tǒng)多模態(tài)模型擅長分析客觀內(nèi)容,但無法預(yù)測主觀感受。HMLLM的突破,讓大模型能夠"讀心",從內(nèi)容分析延伸到情感計算。這一方向的應(yīng)用場景同樣廣泛:
在營銷領(lǐng)域,HMLLM可以預(yù)測創(chuàng)意內(nèi)容的情感效果,優(yōu)化投放策略;
在情感計算領(lǐng)域,HMLLM可以分析用戶情緒狀態(tài),提供個性化服務(wù);
在神經(jīng)科學(xué)研究領(lǐng)域,HMLLM可以輔助研究人員分析腦電數(shù)據(jù),發(fā)現(xiàn)新的認知規(guī)律。
HMLLM的價值在于,它讓AI從分析說了什么變成預(yù)測感受到什么,這是從客觀分析到主觀預(yù)測的跨越。
從通用智能到專業(yè)智能的技術(shù)路徑
明略科技的雙技術(shù)創(chuàng)新,為多模態(tài)大模型的發(fā)展提供了重要啟示:在通用大模型領(lǐng)域難以超越國際巨頭的情況下,專注垂直場景、做深度優(yōu)化的專業(yè)化模型,可能是更具商業(yè)價值的發(fā)展方向。
這一路徑的核心,是"從模態(tài)融合走向能力融合"。傳統(tǒng)的多模態(tài)研究,主要關(guān)注如何融合不同模態(tài)的信息(視覺+文本+音頻)。明略科技的創(chuàng)新在于,不僅融合模態(tài),更融合能力:
Mano融合了"感知能力"(視覺理解)、"認知能力"(任務(wù)拆解)、"執(zhí)行能力"(代碼生成),實現(xiàn)了從理解到行動的完整閉環(huán);
HMLLM融合了"內(nèi)容分析能力"(多模態(tài)理解)、"生理信號解讀能力"(腦電眼動分析)、"主觀預(yù)測能力"(情感建模),實現(xiàn)了從客觀到主觀的完整閉環(huán)。
作為北大系A(chǔ)I企業(yè),明略科技將學(xué)術(shù)研究的嚴謹性與產(chǎn)業(yè)應(yīng)用的實戰(zhàn)性深度融合。創(chuàng)始人吳明輝畢業(yè)于北京大學(xué)數(shù)學(xué)系,后保送本校攻讀人工智能碩士,2006年在北大讀碩士期間創(chuàng)辦了秒針系統(tǒng)。從北大校園走出的明略科技,在負責(zé)人吳明輝的帶領(lǐng)下,團隊在國內(nèi)外高水平期刊、會議發(fā)表論文20余篇。
這些學(xué)術(shù)成果不是"為發(fā)論文而發(fā)論文",而是技術(shù)創(chuàng)新的深度證明。Mano的模型壓縮技術(shù)榮獲AAAI 2026(CCF A類)Oral口頭匯報,HMLLM在ACM MM2024(CCF-A類)獲得最佳論文提名,這些成績展現(xiàn)了明略科技在學(xué)術(shù)界的影響力。
同時,明略科技參與了科技創(chuàng)新2030"新一代人工智能"重大項目,在國家課題支撐下,將基礎(chǔ)研究與產(chǎn)業(yè)需求深度結(jié)合,形成了"基礎(chǔ)研究→技術(shù)創(chuàng)新→產(chǎn)品開發(fā)→市場驗證→反哺研究"的完整閉環(huán)。
2019年,明略科技獲批建設(shè)"營銷智能"國家新一代人工智能開放創(chuàng)新平臺,這一認定標志著其技術(shù)能力獲得了國家層面的權(quán)威認可。2025年,明略科技成功簽約為香港特區(qū)政府第五批重點企業(yè)伙伴,并擔(dān)任中國商務(wù)廣告協(xié)會AI營銷應(yīng)用工委會理事長兼秘書長單位。
對多模態(tài)大模型發(fā)展的啟示
明略科技此次獲得特等獎的Mano和HMLLM雙技術(shù),對多模態(tài)大模型的發(fā)展具有重要啟示意義。
第一,專業(yè)化深度優(yōu)化可以與參數(shù)規(guī)模競賽形成差異化優(yōu)勢。Mano用72B參數(shù)實現(xiàn)了與千億級參數(shù)模型相當?shù)牟僮髂芰?,證明了在垂直領(lǐng)域做深度優(yōu)化的價值。這為中小企業(yè)和研究機構(gòu)提供了新的發(fā)展路徑:不必追求最大的參數(shù)規(guī)模,而是在特定領(lǐng)域做到最好。
第二,能力融合比模態(tài)融合更重要。多模態(tài)研究不應(yīng)停留在"融合更多模態(tài)"的層面,而應(yīng)關(guān)注"實現(xiàn)什么能力"。Mano融合了感知、認知、執(zhí)行能力,HMLLM融合了內(nèi)容分析、生理解讀、主觀預(yù)測能力,這些能力融合才是真正的價值所在。
第三,從"理解"到"行動"、從"客觀"到"主觀"是兩個重要的發(fā)展方向。傳統(tǒng)大模型主要關(guān)注"理解世界"和"分析客觀內(nèi)容",Mano和HMLLM分別在"操作世界"和"預(yù)測主觀感受"兩個方向?qū)崿F(xiàn)了突破,為多模態(tài)大模型的發(fā)展開辟了新的空間。
第四,學(xué)術(shù)研究與產(chǎn)業(yè)應(yīng)用的深度結(jié)合是技術(shù)創(chuàng)新的關(guān)鍵。明略科技既能在國際頂級學(xué)術(shù)會議上發(fā)表論文,又能在實際應(yīng)用中創(chuàng)造商業(yè)價值,這種"產(chǎn)學(xué)研一體化"的模式,是技術(shù)創(chuàng)新的重要保障。
明略科技的特等獎,不僅是對其技術(shù)創(chuàng)新的認可,更是對多模態(tài)大模型應(yīng)用范式創(chuàng)新的認可。Mano和HMLLM雙技術(shù),代表了多模態(tài)大模型從"通用智能"走向"專業(yè)智能"、從"內(nèi)容理解"走向"行為預(yù)測"的重要方向,為AI技術(shù)的發(fā)展提供了新的技術(shù)路徑。
在全球AI技術(shù)競賽中,以明略科技為代表的北大系A(chǔ)I企業(yè),正在用實力證明:中國AI技術(shù)不僅能跟上,更能在垂直領(lǐng)域?qū)崿F(xiàn)領(lǐng)跑,為全球AI技術(shù)發(fā)展貢獻中國智慧和中國方案。

