ChatGPT这类生成式AI真能创造原创想法吗?蒙特利尔大学心理学系Karim Jerbi教授领衔、AI先驱Yoshua Bengio参与的新研究,以史无前例的规模探讨了这个问题——这是人类与大语言模型创造力的最大规模直接对比。
研究发表于《科学报告》(自然旗下期刊),结论指向一个关键转折点:生成式AI已在部分创造力测试中超越普通人水平,但最具创造力的人类仍对最强AI保持明显且稳定的优势。
一、AI追上“平均人类创造力”,但顶尖人类仍碾压
研究团队评估了ChatGPT、Claude、Gemini等多款主流大模型,并与10万+人类参与者的结果对比。发现GPT-4等模型在语言发散创造力任务中得分超过人类平均值。
“我们的研究显示,部分大语言模型AI在定义明确的任务中,创造力已超越平均人类,”Jerbi教授解释,“这结果可能令人惊讶甚至不安,但同样重要的是:即使最优秀的AI,也远不及最具创造力的人类水平。”
进一步分析显示,AI虽能超过普通人,但“巅峰创造力”仍牢牢掌握在人类手中:人类参与者中创造力前50%的平均得分,超过所有测试的AI模型;前10%的顶尖创造者与AI的差距则更大。
“我们与多伦多大学的Jay Olson合作,基于10万+参与者的数据,开发了一套严谨的框架,让人类与AI能用相同工具对比创造力,”同时任职于Mila(魁北克AI研究所)的Jerbi教授说。
二、用“发散联想任务”公平测创造力
为公平对比人类与AI的创造力,团队采用了发散联想任务(DAT)——这是心理学界广泛使用的测试,衡量从单一提示生成多样原创想法的能力。
该任务由合著者Jay Olson设计,要求参与者(人类或AI)列出10个语义尽可能无关的单词,例如高分答案:“星系、叉子、自由、藻类、口琴、量子、怀旧、丝绒、飓风、光合作用”。
这个任务与写作、创意生成、问题解决等其他创造力测试结果高度相关,且仅需2-4分钟即可完成,适合大规模在线测试。
三、从单词联想到创意写作:AI仍输顶尖人类
研究团队进一步测试AI的创造力能否延伸到复杂场景,对比了AI与人类在俳句创作、电影梗概撰写、短篇故事写作中的表现。结果呈现相同规律:AI有时能超过平均人类,但最优秀的人类创作者的作品始终更出色、更具原创性。
四、AI创造力可“调节”:靠参数和提示词
研究还发现,AI的创造力并非固定不变,可通过技术参数调整——尤其是温度参数:
低温度:输出更安全、常规;
高温度:输出更多样、不可预测,突破常规想法。
此外,提示词的表述也会显著影响AI创造力:例如引导AI从词源和结构思考的提示,能产生更意外的联想,提升创造力得分。这说明AI创造力高度依赖人类引导,交互与提示是创作过程的核心。
五、AI不会取代创作者,而是成“创意助手”
针对“AI将取代创意从业者”的担忧,研究给出平衡视角:AI虽能在部分任务中达到或超过平均人类水平,但仍有明显局限,且依赖人类指导。
“即使AI在某些测试中达到人类水平,我们也需跳出‘竞争’的误区,”Jerbi教授说,“生成式AI首先是服务于人类创造力的强大工具:它不会取代创作者,而是深刻改变他们想象、探索和创作的方式——只要创作者愿意使用它。”
研究认为,未来AI将作为“创意助手”,拓展思路、开辟新探索路径,放大人类想象力而非取代它。
“通过直接对比人类与机器的能力,这类研究推动我们重新思考‘创造力’的定义。”Jerbi教授总结道。
该研究论文《人类与大语言模型的发散创造力》于2026年1月21日发表,参与机构包括蒙特利尔大学、康考迪亚大学、多伦多大学、Mila和谷歌DeepMind。
热门跟贴