OpenAI最新模型打不動(dòng)了？GPT-5.2因“降智”陷“差評(píng)潮”|界面新聞

界面新聞?dòng)浾?| 宋佳楠

OpenAI推出不到一周的最新旗艦?zāi)Ｐ蜎]能等來“好評(píng)如潮”。

近日，OpenAI在十周年之際發(fā)布了GPT-5.2系列模型，官方數(shù)據(jù)顯示其在GDPval等專業(yè)基準(zhǔn)測(cè)試中超越人類專家，是迄今為止在“專業(yè)知識(shí)工作方面”表現(xiàn)最好的模型。

據(jù)OpenAI官方披露，GPT-5.2在多領(lǐng)域?qū)崿F(xiàn)技術(shù)突破：GDPval測(cè)試中覆蓋44個(gè)職業(yè)的任務(wù)表現(xiàn)70.9%優(yōu)于頂尖專家，SWE-bench Pro編程測(cè)試獲55.6%的SOTA成績(jī)，還將幻覺率較GPT-5.1降低38%。該公司CEO山姆·奧特曼稱其為“許久以來最大的升級(jí)”，并透露計(jì)劃2026年1月解除應(yīng)對(duì)谷歌競(jìng)爭(zhēng)的“紅色警報(bào)”。

但該模型上線后遭到大量用戶吐槽，認(rèn)為其從常識(shí)問答到情感交互，“智商不穩(wěn)定”。

SimpleBench常識(shí)推理測(cè)試顯示，GPT-5.2得分低于Anthropic發(fā)布的Claude Sonnet 3.7，甚至在“garlic有幾個(gè)r”的基礎(chǔ)問題上反復(fù)出錯(cuò)——有用戶三次測(cè)試僅一次答對(duì)，而谷歌的Gemini 3.0等競(jìng)品均穩(wěn)定通關(guān)。該測(cè)試旨在評(píng)估大模型在處理普通人認(rèn)為簡(jiǎn)單，但對(duì)機(jī)器而言充滿挑戰(zhàn)的邏輯推理任務(wù)的能力。前AWS總經(jīng)理Bindu Reddy直言，“不值得從GPT-5.1升級(jí)”。

網(wǎng)友曬出的網(wǎng)友曬出GPT-5.2在SimpleBench上的成績(jī)單。

一些編程愛好者則發(fā)現(xiàn)，GPT-5.2生成的交通燈模擬代碼畫面僅達(dá)“黑白火柴人級(jí)別”，蒙娜麗莎ASCII藝術(shù)創(chuàng)作效果遠(yuǎn)遜于GPT-4o。情感交互中有用戶傾訴“恐慌發(fā)作”，竟收到“很高興聽到這個(gè)消息”的回復(fù)，安慰失寵孩童時(shí)則機(jī)械強(qiáng)調(diào)“生物都會(huì)停止運(yùn)作”，缺乏此前版本的親和力和自然表達(dá)。

此外，該版本在處理連續(xù)對(duì)話時(shí)不穩(wěn)定，甚至在明確選擇“高級(jí)思考模式”時(shí)也會(huì)返回低質(zhì)量的自動(dòng)響應(yīng)，令用戶不得不重新調(diào)整使用方式。

還有用戶表示，GPT-5.2的安全策略實(shí)施過于嚴(yán)格，在執(zhí)行普通且無風(fēng)險(xiǎn)的請(qǐng)求時(shí)也會(huì)拒絕操作并給出無關(guān)的安全提示。

有觀察人士指出，這輪差評(píng)潮背后存在幾重因素。一方面，OpenAI推廣時(shí)著重強(qiáng)調(diào)GPT-5.2的專業(yè)能力和基準(zhǔn)測(cè)試成績(jī)，但普通用戶更關(guān)注日常對(duì)話、流暢性和創(chuàng)造性體驗(yàn)，兩者的期望存在錯(cuò)位；另一方面，由于競(jìng)爭(zhēng)加劇和內(nèi)部發(fā)布節(jié)奏加快，有觀點(diǎn)認(rèn)為該版本可能發(fā)布過早，尚未充分優(yōu)化在關(guān)鍵使用場(chǎng)景中的穩(wěn)定性與一致性，因此用戶的實(shí)際感受出現(xiàn)明顯落差。

截至發(fā)稿，OpenAI尚未就這輪用戶反饋?zhàn)鞒龉_回應(yīng)，但公司在官方資料中表示，會(huì)持續(xù)改善用戶體驗(yàn)、優(yōu)化安全策略，并根據(jù)用戶反饋推進(jìn)后續(xù)版本的迭代。

當(dāng)前，OpenAI仍面臨來自谷歌的巨大競(jìng)爭(zhēng)壓力。谷歌此前推出的Gemini 3在編程、多模態(tài)理解等關(guān)鍵企業(yè)應(yīng)用場(chǎng)景上實(shí)現(xiàn)了對(duì)ChatGPT的性能超越。11月，谷歌宣布Gemini月活躍用戶已突破6.5 億，較7月報(bào)告的4.5億實(shí)現(xiàn)大幅增長(zhǎng)，而OpenAI披露的周活躍用戶數(shù)接近8億。

為此，奧特曼曾發(fā)布“紅色代碼”警報(bào)，決定暫時(shí)擱置包括Sora視頻生成器在內(nèi)的長(zhǎng)期研發(fā)項(xiàng)目，轉(zhuǎn)而在短期內(nèi)全力通過提升用戶活躍度來鞏固ChatGPT的大眾市場(chǎng)地位。但急轉(zhuǎn)直下的口碑或在很大程度上影響ChatGPT的使用率，OpenAI能否拿出更強(qiáng)有力的“武器”反擊谷歌仍存在不確定性。

界面新聞?dòng)浾?| 宋佳楠

OpenAI推出不到一周的最新旗艦?zāi)Ｐ蜎]能等來“好評(píng)如潮”。

但該模型上線后遭到大量用戶吐槽，認(rèn)為其從常識(shí)問答到情感交互，“智商不穩(wěn)定”。

国产精品视频无码2016_日韩福利免费伦伦视频_成人精品a∨在线观看无码_午夜高清免费观看视频_五月激情在线精品观看_精品一区在线观看av_成人影院毛片一级_亚洲gay片在线gv网站_久久嫩草精品粉红影视_国产国语一级毛片中文

歷史搜索全部刪除

熱門搜索

OpenAI最新模型打不動(dòng)了？GPT-5.2因“降智”陷“差評(píng)潮”

OpenAI

評(píng)論

OpenAI最新模型打不動(dòng)了？GPT-5.2因“降智”陷“差評(píng)潮”

国产精品视频无码2016_日韩福利免费伦伦视频_成人精品a∨在线观看无码_午夜高清免费观看视频_五月激情在线精品观看_精品一区在线观看av_成人影院毛片一级_亚洲gay片在线gv网站_久久嫩草精品粉红影视_国产国语一级毛片中文

OpenAI最新模型打不動(dòng)了？GPT-5.2因“降智”陷“差評(píng)潮”

OpenAI

評(píng)論

OpenAI最新模型打不動(dòng)了？GPT-5.2因“降智”陷“差評(píng)潮”

OpenAI最新模型打不動(dòng)了？GPT-5.2因“降智”陷“差評(píng)潮”