弱智吧8项测试砍第一，成人类进化史浓重一笔

金融界

2024-04-05 10:09 ·北京

先来一个弱智吧的经典问题：既然快递要 3 天才到，为什么不把所有的快递都提前 3 天发？

老哥们可以把答案写在留言区，咱们先来看看各大 AI 的解答。

为了减少废话，我们要求 AI 把答案限制在 100 字内进行解释。

首先是 chatGPT。

答案不是很让人满意。接下来将问题切换成英文重新提问。

翻译过来的答案，和直接用中文提问没有本质区别。

难道是外来的和尚难念本地的经？

那有请本土 AI 大模型，百度的文心一言上场。

呃... 和 chatGPT 半斤八两。

再来看看阿里的通义千问。

通义千问甚至无视了我的字数限制要求。

再次提问后，通义千问给出了精简版本，但是依然没理解问题本身。

为什么突然想起来用弱智吧语录拷打 AI 模型？

原因是最近的一则有趣新闻：弱智吧登上正经 AI 论文，还成了最好的中文训练数据。

这项研究来自中科院深圳先进技术研究院、中科院自动化研究所，滑铁卢大学等众多高校、研究机构联合团队。

在论文的摘要中，研究团队表示，“最近，大型语言模型（LLMs）取得了显著进展，特别是针对英语。这些进展使得这些 LLMs 能够以前所未有的准确性和流畅度理解和执行复杂的指令。 ”

“然而，尽管取得了这些进展，但在中文指令调优方面仍存在明显差距。中文语言的独特语言特征和文化深度给指令调优任务带来了挑战。现有数据集要么来自以英语为中心的 LLMs，要么不适合与真实世界中文用户的交互模式对齐。”

“为此，我们从中国互联网的各个来源，包括问答社区、维基、考试和现有的自然语言处理数据集中，收集了高质量的人工书写语料库。”

“我们实验的结果为选择和开发中文指令调优数据集提供了宝贵的见解。我们还发现，训练在 CQIA-Subset 上的模型在人类评估以及知识和安全基准测试中取得了竞争力的结果。”

具体来说，使用弱智吧数据训练的大模型，跑分超过豆瓣、小红书、知乎等平台，甚至超过了研究团队精心挑选的数据集。

在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。

作为对比，这是来自豆瓣的训练数据。

这是来自小红书的训练数据。

这是来自知乎的训练数据。

这些，就是来自弱智吧的训练数据...

给人一种画风陡转的感觉。

具体技术细节，咱们就不展开讲了。有感兴趣的老哥，可以按照前文给出的标题进行搜索。

让小编霜云感到忍俊不禁的，是网友们的反应。

X 平台网友直接哈哈大笑。

笑过之后，这位博主给出了自己的见解，认为弱智吧的题目增加了指令多样性，提升了最终性能。

这位网友就搞笑了，因为第一眼没看懂原博主的内容，直接找另一个大模型 Claude 去问了...

对此，知乎网友@叫我 Alonzo 就好了认为，“弱智吧的语料质量上乘啊，每个帖子内容都是精雕细琢，思维缜密，三言两语间信息量庞大，大模型学了之后直接出院，直接吊打其他没有出院的模型。”

知乎网友@卡卡罗特认为，虽然这个论文的方法略有偏差，有蒸馏 gpt4 的嫌疑，但弱智吧的问题的确是既符合自然语言“规范”，又带有较复杂的“逻辑推理”。在大语言模型的 sft 环节，弱智吧这种高质量的问题可能真的对大模型的“智力”有一定影响。

他补充道，如果原论文能再做一个对比实验，即使用普通采样的问题，利用 gpt4 回答形成问答对，再微调，这样的结果更具说服力。

知乎网友@刘 - ww则给出了很高的评价，该网友觉得弱智吧的语料才是真的逻辑缜密，相比其他数据平铺直叙的事实陈述，弱智吧这种“探索思维本质”的数据集才是逻辑推断的最好语料。

当然，也有网友给出了“泼冷水”的见解。

另一方面，作为长脸的消息，这事儿当然很快传到了弱智吧众人那里。

先是自己人“弱智吧日常”自嘲一波。

而后，弱智吧吧主特意表示道，“由于最近被这类贴子洗屏了，影响版面，所以特开一贴，欢迎吧友将类似资讯放进这贴，请勿开新贴，谢谢。”

吧内众人纷纷给出锐评，尽情彰显弱智吧吧友的风采。

有吧友表示：“弱智吧标题，以别出心裁的结构保证语法严谨，是一种未曾设想的诗意的表达方式。模型可以从这种文字游戏中学到中文的特殊之处，也让模型大开眼界。”

也有吧友表示，以弱智吧吧友的身份代替 AI，完成人类光荣的进化。

Emm... 只能说，玩梗这块，人类确实有两下子。

最后，小编霜云用文章开头的问题，采访了大学舍友。

他给出了这样的回复：

怎么说呢... 说起来... 反正不好说...

本文源自IT之家

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴