说个鬼故事: 你花钱用的大模型,可能是山寨版 这里的山寨,指的是: 挂着同样名称,性能明显不达标模型

晚上群里看了个报告:

大致意思是:有 12 家 API 服务商在提供 K2,但和官方 API 的相似度各不相同,低至 48.93%

 不同服务商的「官方实现相似度」
打开网易新闻 查看精彩图片
不同服务商的「官方实现相似度」

这里表达下观点:

  • API 偷手是个很严重的问题,也很普遍

  • • 无论是官方,还是第三方,都存在这个问题(比如很多时候,我们会说 GPT 变笨了)

  • • 我非常赞同这个比较方法,应该做成一个 Benchmark

  • • 这个报告也有一些局限性,指标会让人误解

下面,我分别来说

模型偷手,很普遍

先说个年初的事

DeepSeek-R1 发布后,各种平台都说自己接入 671B 满血版

但... 671B,真的是满血吗?不见得

模型除了尺寸之外,还有别的属性,比如精度、推理长度...非常多

比如 DeepSeek 官方开源的 671B 为例:默认 FP8 精度
而平台可以为了省蒜粒,可以使用量化版,比如 INT4 精度,这也可以称为 671B,没毛病

很显然:精度越低,模型表现越差
但用户完全不知道,看到有就用了
同一个问题,问三家平台的 DeepSeek,答案完全不一样

这就是典型的黑箱操作:

正如 1 可以是 ∅,满血也能阉割

而且不只是第三方的问题。官方 API 也会出现:

  • • 为了降本增效调整推理参数

  • • 为了提升速度牺牲精度

  • • 为了负载均衡降低资源分配

用户感知就是:这模型怎么变笨了 是吧,OpenAI?
说回测试

这份来自 MoonShot 的测试,做了一件事:

比较第三方平台,与官方的响应差异

开源了 50% 的测试数据,服务商可以自己跑,用户也可以自己测

 测试的内容
打开网易新闻 查看精彩图片
测试的内容

我觉得吧,这个方法应该做成 Benchmark
不只是 K2,各个模型都可以对照测试
让服务商没法糊弄,让用户有选择依据

报告的局限性

说实话,这份报告也有局限性
比如「相似度」这个指标,还可以优化

看数据:

某个服务商成功调用 1445 次,官方 1286 次

明显不比官方差,但相似度只有 88.05 %(显得很差,这很有问题)

 这个报告...其第一遍,其实没看明白
打开网易新闻 查看精彩图片
这个报告...其第一遍,其实没看明白

要知道:对于同样的模型,官方提供的 API 也不一定是最好的
(虽然大多数情况下并不会)

举个例子:官方设定的推理是 100 个 tokens,但第三方给了 1000,第三方就会好

所以,更合理的指标应该是:

  • • 准确率:该调用的时候调了吗

  • • 精确率:调用的都对吗

  • • F1-Score:综合评估

  • • 直接以官方为 100 分基准

最后说两句

这个问题的本质,是信息不对称
对于大模型的消费者,无论是用 AI 产品的,还是用 API 的
你只知道模型的名字,并不知道用的什么精度,怎么推理的之类

这些东西,服务商也不会主动说
性能打折,用户只会觉得是 prompt 没写好
反正死无对证,又能咋地

AI 行业,需要自己的 315 花钱用模型,得知道用的啥