界面新聞?dòng)浾?| 宋佳楠
OpenAI推出不到一周的最新旗艦?zāi)P蜎]能等來“好評(píng)如潮”。
近日,OpenAI在十周年之際發(fā)布了GPT-5.2系列模型,官方數(shù)據(jù)顯示其在GDPval等專業(yè)基準(zhǔn)測(cè)試中超越人類專家,是迄今為止在“專業(yè)知識(shí)工作方面”表現(xiàn)最好的模型。
據(jù)OpenAI官方披露,GPT-5.2在多領(lǐng)域?qū)崿F(xiàn)技術(shù)突破:GDPval測(cè)試中覆蓋44個(gè)職業(yè)的任務(wù)表現(xiàn)70.9%優(yōu)于頂尖專家,SWE-bench Pro編程測(cè)試獲55.6%的SOTA成績(jī),還將幻覺率較GPT-5.1降低38%。該公司CEO山姆·奧特曼稱其為“許久以來最大的升級(jí)”,并透露計(jì)劃2026年1月解除應(yīng)對(duì)谷歌競(jìng)爭(zhēng)的“紅色警報(bào)”。
但該模型上線后遭到大量用戶吐槽,認(rèn)為其從常識(shí)問答到情感交互,“智商不穩(wěn)定”。
SimpleBench常識(shí)推理測(cè)試顯示,GPT-5.2得分低于Anthropic發(fā)布的Claude Sonnet 3.7,甚至在“garlic有幾個(gè)r”的基礎(chǔ)問題上反復(fù)出錯(cuò)——有用戶三次測(cè)試僅一次答對(duì),而谷歌的Gemini 3.0等競(jìng)品均穩(wěn)定通關(guān)。該測(cè)試旨在評(píng)估大模型在處理普通人認(rèn)為簡(jiǎn)單,但對(duì)機(jī)器而言充滿挑戰(zhàn)的邏輯推理任務(wù)的能力。前AWS總經(jīng)理Bindu Reddy直言,“不值得從GPT-5.1升級(jí)”。

一些編程愛好者則發(fā)現(xiàn),GPT-5.2生成的交通燈模擬代碼畫面僅達(dá)“黑白火柴人級(jí)別”,蒙娜麗莎ASCII藝術(shù)創(chuàng)作效果遠(yuǎn)遜于GPT-4o。情感交互中有用戶傾訴“恐慌發(fā)作”,竟收到“很高興聽到這個(gè)消息”的回復(fù),安慰失寵孩童時(shí)則機(jī)械強(qiáng)調(diào)“生物都會(huì)停止運(yùn)作”,缺乏此前版本的親和力和自然表達(dá)。
此外,該版本在處理連續(xù)對(duì)話時(shí)不穩(wěn)定,甚至在明確選擇“高級(jí)思考模式”時(shí)也會(huì)返回低質(zhì)量的自動(dòng)響應(yīng),令用戶不得不重新調(diào)整使用方式。
還有用戶表示,GPT-5.2的安全策略實(shí)施過于嚴(yán)格,在執(zhí)行普通且無風(fēng)險(xiǎn)的請(qǐng)求時(shí)也會(huì)拒絕操作并給出無關(guān)的安全提示。
有觀察人士指出,這輪差評(píng)潮背后存在幾重因素。一方面,OpenAI推廣時(shí)著重強(qiáng)調(diào)GPT-5.2的專業(yè)能力和基準(zhǔn)測(cè)試成績(jī),但普通用戶更關(guān)注日常對(duì)話、流暢性和創(chuàng)造性體驗(yàn),兩者的期望存在錯(cuò)位;另一方面,由于競(jìng)爭(zhēng)加劇和內(nèi)部發(fā)布節(jié)奏加快,有觀點(diǎn)認(rèn)為該版本可能發(fā)布過早,尚未充分優(yōu)化在關(guān)鍵使用場(chǎng)景中的穩(wěn)定性與一致性,因此用戶的實(shí)際感受出現(xiàn)明顯落差。
截至發(fā)稿,OpenAI尚未就這輪用戶反饋?zhàn)鞒龉_回應(yīng),但公司在官方資料中表示,會(huì)持續(xù)改善用戶體驗(yàn)、優(yōu)化安全策略,并根據(jù)用戶反饋推進(jìn)后續(xù)版本的迭代。
當(dāng)前,OpenAI仍面臨來自谷歌的巨大競(jìng)爭(zhēng)壓力。谷歌此前推出的Gemini 3在編程、多模態(tài)理解等關(guān)鍵企業(yè)應(yīng)用場(chǎng)景上實(shí)現(xiàn)了對(duì)ChatGPT的性能超越。11月,谷歌宣布Gemini月活躍用戶已突破6.5 億,較7月報(bào)告的4.5億實(shí)現(xiàn)大幅增長(zhǎng),而OpenAI披露的周活躍用戶數(shù)接近8億。
為此,奧特曼曾發(fā)布“紅色代碼”警報(bào),決定暫時(shí)擱置包括Sora視頻生成器在內(nèi)的長(zhǎng)期研發(fā)項(xiàng)目,轉(zhuǎn)而在短期內(nèi)全力通過提升用戶活躍度來鞏固ChatGPT的大眾市場(chǎng)地位。但急轉(zhuǎn)直下的口碑或在很大程度上影響ChatGPT的使用率,OpenAI能否拿出更強(qiáng)有力的“武器”反擊谷歌仍存在不確定性。


