GPT-4 太强,甚至已经化身“主考官”了!给其他市面上主流的大模型打分,结果自己给了自己最高分:95.5。(好,给自己留点努力的空间)
不过随后就没有上 90 的选手了。就连它的“前辈”ChatGPT(GPT-3.5),它也只给了 89.1 分。随后依次是号称最强竞品的 Claude、谷歌 Bard、UC 伯克利出品的小羊驼 Vicuna-13B,以及清华系开源模型 ChatGLM-6B。

打开网易新闻 查看精彩图片