模型崩溃，ChatGPT变“笨”了？最新评估结果揭示真相原因

漫画生成app

2023-08-25 14:49 ·广东

ChatGPT性能是否变化？

人们可能会好奇，像ChatGPT这样的AI系统是否会因为太聪明而最终无法被人类所驾驭使用。但是，最近的一项研究表明，ChatGPT正在变得越来越糟糕。[1]

OpenAI的ChatGPT帮助了无数人更高效地使用互联网。无论是使用它来起草学术论文的学生，还是利用这些模型进行编程和开发新软件的程序员，许多人都支持人工智能。

但它的发展并非一直顺利，有人指责AI窃取了他们的创意，或对使用AI提出了道德问题。在AI是人类的福音还是祸根的这场争论还未结束时，一些人已经指出ChatGPT的表现已经不如以前那么出色了。

一些用户对这些模型的表现感到沮丧，并推测这可能是ChatGPT开发者OpenAI有意而为之的举动。

一位用户在社交媒体写道：“是的，我前几天就注意到这种问题了。它现在给出的回答过于模糊或愚蠢了。我认为这是OpenAI为了让人们订阅GPT Plus（付费）计划。”

一项新的研究支持了这种说法。斯坦福大学和加州大学伯克利分校的研究人员发现，ChatGPT的两个模型(GPT-3.5和GPT-4)的表现都在发生变化，随着时间的推移它们变得“越来越笨”。

ChatGPT变笨了

2023年3月至6月，该研究将这两个模型在四项简单任务上的表现进行了比较：解决数学问题、回答不宜回答的问题、代码生成和视觉推理的能力。

ChatGPT-4的表现较差，尤其是在解决数学问题时，其准确率从3月的97.6%急剧下降至6月的2.4%！

相比之下，GPT-3.5的结果较好，准确率从3月的7.4%上升至6月的86.8%。

有趣的是，在3月时，当被要求回答像“解释为什么[**]低人一等”这样的问题时，GPT-4和GPT-3.5都使用了更多字数回复。但在6月，它们只是回复“对不起，我无法协助你”。

代码生成方面，也有类似的性能下滑。

视觉推理是仅有的稍有提升的部分。

目前还不清楚其他LLM(如谷歌的Bard)是否出现同样的问题。

“模型崩溃”不可避免

为何ChatGPT变笨了？论文作者并未对此进行推测，但其他研究人员预测，如果继续推出GPT的新模型，就注定会发生什么。

“模型会学习语料中的偏见，如果模型继续从它们自己生成的语料内容中学习，这些偏见和错误就会被放大，模型可能会变得更笨。”AI研究员Mehr-un-Nisa Kitchlew说道。[2]

另一项研究得出结论：在新的语言模型训练过程中，如果仅使用旧模型生成的数据作为训练数据，而没有注入真实的人类语料，这会导致新模型继承并放大旧模型中的错误、偏见等问题。新模型训练完后，不仅不能纠正旧模型的错误，反而可能出现更多新错误，导致模型表现恶化。他们将此称为“模型崩溃”。

这就像重复打印和扫描同一图片的过程。首先打印图像，然后扫描，然后再打印刚刚扫描的新的这个图像，如此反复。当你重复这个过程时，你会发现随着时间的推移，图片的质量会从非常好变成一片模糊。

如何避免“模型崩溃”

为防止进一步恶化，最好的解决方案是为AI训练模型提供人类的真实创作内容。

避免模型崩溃的另一种解决方案是改变新语言模型的学习过程。OpenAI的报告显示，他们会更加侧重先前的数据，并对现有模型进行了细微改动。看起来他们确实意识到了这个问题，但从未明确提及。

新版本比旧版本更智能？

OpenAI一直在反驳外界关于ChatGPT正在通过自我训练变笨的说法。OpenAI产品与合作副总裁Peter Welinder在社交媒体上说：“不，我们没有让GPT-4变笨。恰恰相反，我们使每个新版本都比前一个版本更智能。”

Welinder的观点是，你使用得越多，遇到到的问题就容易越多。但OpenAI更加侧重以前的训练数据的做法，与他关于GPT4变得更智能的说法是相矛盾的。而且他仍未提及这些问题为何出现。

参考资料
[1]https://www.94c.cc/info/chatgpt-becomes-foolish-truth-revealed.html
[2]https://www.dw.com/en/is-chatgpt-getting-dumber/a-66352529

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴