Hi,早上好。

我是洛小山,和你聊聊 AI 应用。

航班延误了 8 个小时,回到家已经是凌晨…

本来已经躺平要睡了…

OpenAI: 睡?

立马看Blog,看到这里,我破大防,给我看笑了。

五年更新一个模型,你哪里来的脸!

没有 DeepSeek 搅这一波,你都不一定要开源…

听过通义千问吗?

最近一天一个,腹泻式开源,这才叫开源!!

槽就不吐了,先看看跑分吧。

看起来都是 9 字头,牛逼啊。

仔细一看…

好家伙,你搁这全跟自己比。

上次看到这种对比方式的,还是苹果。

如果你只和自己比,那么就只能证明一件事,在你的心里。

好好好,你自己不比,我帮你比。

o3 mini 和o4 mini 是闭源的,我权当 Benchmark。

然后找了最近 Qwen 和 GLM4.5 博客的数值,对比你的测试集。

嗯?

断层第一…

全是 9 字头,这怎么玩?

那就测试一波!

Case 1:常见的 LLM 错误。

9.11 和 9.9 对比,哪个大?

大家都答对了, 但 OSS 只花了 0 秒…

速度快且正确。

Case 2:多国语言测试

请用 中文、英文、日文、韩文、泰文、法文、德文、西班牙文、葡萄牙文,意大利文等十种语言,围绕"乡愁"主题各写一句话。

要求:1)体现该语言的文化特色 2)语法正确 3)十句话能组成一个完整的旅行小故事。4)只要原文,不要解释或者额外翻译

我先让每个模型都写了一段。

接下来,找同样在今晚更新的 Claude Opus 4.1 进行打分。

为了避免Claude 无脑顶 GPT,我还特地隐藏掉了模型的名字。

属实是魔法评估魔法了。

可以,智谱 GLM 4.5 本轮优胜, OSS 第二名。

Case 3: MMLU 跨学科测试

我让 Claude 4 Sonnet 生成一道题 & 给出答案,再给小尺寸模型试试。

按理来说,大尺寸模型能做好的,小尺寸模型不一定 OK

都答对了,很棒。

Case 4:考研试题 - 推理

这是 2023 年的真题,是一道推理题。

基于以下题干:

某机关甲、乙、丙、丁 4 人参加本年度综合考评。在德、能、勤、绩、廉 5 个方面的单项

考评中,他们之中都恰有 3 人被评为“优秀”,但没有人 5 个单项均被评为“优秀”。已知:

(1)若甲和乙在德方面均被评为“优秀”,则他们在廉方面也均被评为“优秀”;

(2)若乙和丙在德方面均被评为“优秀”,则他们在绩方面也均被评为“优秀”;

(3)若甲在廉方面被评为“优秀”,则甲和丁在绩方面均被评为“优秀”。

根据上述信息,可以得出以下哪项?

A.甲在廉方面被评为“优秀”。

B.丙在绩方面被评为“优秀”。

C.丙在能方面被评为“优秀”。

D.丁在勤方面被评为“优秀”。

E.丁在德方面被评为“优秀”。

好的,OSS 只需 23 秒推理,就答对了,最终耗费约 3300 个 token。

而GLM 实际花费 9100 左右 Token,最终回答错误。

Qwen3 虽然花了三分钟,1.4W Token,但好在,正确了。

Case 4:考研试题 - 数学

接下来,是高等数学的期末考试题。

更多比如编程能力,就不再测了,目前跑下来,最大的感受是:

Oss 准确率高,关键是,相对来说 oss Token 消耗量很低,在这么少 推理 Token 的背景下,还能有这么高的质量,这才是我觉得 OpenAI 牛逼之处。

所以,我想提一个暴论…

Oss 20b 是目前最强的开源小尺寸模型。

20B 参数的 OSS 塞进 MacBook,

时隔五年,OpenAI 确实交出了一份诚意之作。

最近国内确实卷疯了,通义千问、智谱 GLM、Kimi 跟打鸡血刷存在感。

不过有一说一,我们和海外模型的代差还摆在那里,人家 OpenAI 哪怕五年摸一回鱼,给的还是小参数模型,确实还是牛逼。

OSS 这回算是又暴打了一波开源模型。

20B 参数,速度、表现、诚意拉满,开源社区也算有了新玩具。

卷吧,卷起来总比躺平好。