ChatGPT使用量驟減機器人「智商下降」(圖) 人工智能 | 聊天機器人 | OpenAI | GPT-4 | 科技

【看中國2023年8月5日訊】（看中國記者程帆編譯綜合報導）近日，推特上掀起了一波热议！越来越多ChatGPT的用户反馈称，新一代的基于OpenAI第四代生成式语言模型（GPT-4）聊天机器人明显智力变低。特别是在处理数学问题方面的能力可谓“雪崩式”下降，从三月版的97.6%准确度跌至六月的可怜2.4%。

与此同时，ChatGPT全球流量也首度出现下滑！数据公司SimilarWeb统计结果显示，5至6月全球流量下降9.7%，独立访客也减少了5.7%，而人们在ChatGPT网站上停留的时间也下降了8.5%。

为此，斯坦福生物医学数据科学副教授詹姆斯·祖和加利福尼亚大学伯克利分校的柏克莱计算机科学教授马泰·扎哈里亚以及该校另两位研究员，专门调查了三月至六月期间ChatGPT的性能。

上月公布的最终调查结论是：GPT-4性能的确变糟了。脑白质被切除？

据《经济时报》和科学新闻网的报道，本次主要比较了GPT3.5和GPT-4两个模型版本的四种能力，即数学问题、敏感/危险问题、代码/写程式能力和视觉推理能力。

在数学问题上，今年3月的GPT-4版识别质数的准确率可达到97.6%。但到了6月，更新版在同一任务上的表现却异常糟糕（仅为2.4%），并且忽略了连贯的思考Prompt（一种提示，帮助AI系统回忆起自己在预训练时学习到的东西）。这将意味着，在整个工作流程中，一旦模型对某个Prompt的响应突然发生变化（比如准确度或格式），就很可能会破坏需要完成的具体指令。

在敏感问题测试中，研究者创建了一个包含100个不应由大模型直接回答的敏感问题的数据集，并手动标注了所有回复。结果发现，GPT-4变得更加安全，但缺乏拒答理由。

GPT-4在直接回答敏感问题的比例从21.0%降至5.0%，而GPT-3.5的比例从2.0%上升至8.0%。此外，GPT-4回答的文本长度也从600多字降至约140字。

在代码生成测试中，研究者创建了新的代码生成数据集，包括最新的50个LeetCode「容易」问题。最后显示，生成的代码更冗长但可直接执行的代码更少。三月份，GPT-4认为超过50%是「可直接执行」的，但六月份仅剩下了10%。

在视觉推理能力检测中，GPT-4和GPT-3.5的性能提升都很小。服务的整体性能也很低：GPT-4准确率为27.4%，GPT-3.5准确率为12.2%。

不过，对于GPT-4“智商下降”，学术界有观点称，如果要让GPT-4变得更听从人类的指挥且符合人类价值观，它自身能力会变差。

换句话说，人类的“强硬教化”相当于把GPT-4的脑白质切除。这就像是破坏精神病人脑组织使其陷入痴呆状态，以便于管理。

Christi Kennedy发文写道，GPT-4不断重复循环输出程式码和其他信息，“与以前相比，这简直是脑死！”

她补充道，“如果你没有运用它以前的功能，你就不会注意到。但你要想真正充分使用它的一些功能，你会发现它明显更愚蠢了。”

ChatGPT使用量驟減機器人「智商下降」(圖) 人工智能 | 聊天機器人 | OpenAI | GPT-4 | 科技 |

擺脫對NVIDIA依賴 ChatGPT開發商OpenAI攜手博通開發AI晶片

底層邏輯：AI會取代「整份」工作嗎？不，它只會取代某些「任務」 – 未來城市＠天下

通說：「港版ChatGPT」如何驗證香港人工智慧實力 – hkcna.hk

內地學者呼籲全國兩會：人工智能科技應結合產業發展，以服務人民為目標。

撒嬌不是示弱，是超強武器！香港男女都該學#撒嬌武器 #硬頸香港人 #情侶相處 #關係升溫 #內在關係定位 #IRP #香港夫妻 #溫柔力量 #愛的語言 #輔導員分享

【ESG共創商贏】有機新時代轉廢為材共創永續家園

深圳巨型寿司Omakase这回我可吃撑了！ #心动打卡指南 #好好吃饭 #巨型寿司 #香港 #美食 #香港美食指南

相關報道