06/03/2026

PressMega

AI人工智能報道資訊網站

ChatGPT使用量驟減 機器人「智商下降」(圖) 人工智能 | 聊天機器人 | OpenAI | GPT-4 | 科技 |

PressMega


【看中國2023年8月5日訊】(看中國記者程帆編譯綜合報導)近日,推特上掀起了一波热议!越来越多ChatGPT的用户反馈称,新一代的基于OpenAI第四代生成式语言模型(GPT-4)聊天机器人明显智力变低。特别是在处理数学问题方面的能力可谓“雪崩式”下降,从三月版的97.6%准确度跌至六月的可怜2.4%。

与此同时,ChatGPT全球流量也首度出现下滑!数据公司SimilarWeb统计结果显示,5至6月全球流量下降9.7%,独立访客也减少了5.7%,而人们在ChatGPT网站上停留的时间也下降了8.5%。

为此,斯坦福生物医学数据科学副教授詹姆斯·祖和加利福尼亚大学伯克利分校的柏克莱计算机科学教授马泰·扎哈里亚以及该校另两位研究员,专门调查了三月至六月期间ChatGPT的性能。

上月公布的最终调查结论是:GPT-4性能的确变糟了。脑白质被切除?

据《经济时报》和科学新闻网的报道,本次主要比较了GPT3.5和GPT-4两个模型版本的四种能力,即数学问题、敏感/危险问题、代码/写程式能力和视觉推理能力。

在数学问题上,今年3月的GPT-4版识别质数的准确率可达到97.6%。但到了6月,更新版在同一任务上的表现却异常糟糕(仅为2.4%),并且忽略了连贯的思考Prompt(一种提示,帮助AI系统回忆起自己在预训练时学习到的东西)。这将意味着,在整个工作流程中,一旦模型对某个Prompt的响应突然发生变化(比如准确度或格式),就很可能会破坏需要完成的具体指令。

在敏感问题测试中,研究者创建了一个包含100个不应由大模型直接回答的敏感问题的数据集,并手动标注了所有回复。结果发现,GPT-4变得更加安全,但缺乏拒答理由。

GPT-4在直接回答敏感问题的比例从21.0%降至5.0%,而GPT-3.5的比例从2.0%上升至8.0%。此外,GPT-4回答的文本长度也从600多字降至约140字。

在代码生成测试中,研究者创建了新的代码生成数据集,包括最新的50个LeetCode「容易」问题。最后显示,生成的代码更冗长但可直接执行的代码更少。三月份,GPT-4认为超过50%是「可直接执行」的,但六月份仅剩下了10%。

在视觉推理能力检测中,GPT-4和GPT-3.5的性能提升都很小。服务的整体性能也很低:GPT-4准确率为27.4%,GPT-3.5准确率为12.2%。

不过,对于GPT-4“智商下降”,学术界有观点称,如果要让GPT-4变得更听从人类的指挥且符合人类价值观,它自身能力会变差。

换句话说,人类的“强硬教化”相当于把GPT-4的脑白质切除。这就像是破坏精神病人脑组织使其陷入痴呆状态,以便于管理。

Christi Kennedy发文写道,GPT-4不断重复循环输出程式码和其他信息,“与以前相比,这简直是脑死!”

她补充道,“如果你没有运用它以前的功能,你就不会注意到。但你要想真正充分使用它的一些功能,你会发现它明显更愚蠢了。”

来源:看中国
短网址:http://kzg.io/b54N83
版权所有,任何形式转载需本站授权许可。严禁建立镜像网站。


本文章由Open AI人工智能編寫,僅屬學術用途。
可參考相關同類新聞