打开网易新闻 查看精彩图片

Hi,我是洛小山,你学习 AI 的搭子。

前两天发了 XSCT Bench 平台,现在 DAU 已经破 500 啦~

打开网易新闻 查看精彩图片

有好多朋友非常仔细研究用例,我收到了许多 BUG 反馈,收获了一些小开心。

打开网易新闻 查看精彩图片

但还有一些朋友问我:山佬山佬,你这数据太多了,我看不过来了,有没有一些懒人看网站的教程?

当然可以,必须有!

今天这篇,我用一个「润色场景选型」的完整案例,带你走一遍 XSCT 的高效打开方式。

你只需要用自然语言问一句话,AI 会替你把剩下的事全做了。

因为:我做了官方 MCP 应用,免鉴权,直接就可以接到你的 Cherry Studio 里。

01|动动手,用 AI 来选 AI。

什么?!

这个网站 AI 也能看?!

对…

XSCT 本质就是一个交互良好的数据库。

而大模型选型这件事,本质上是一个信息检索 + 数据分析 + 决策推理的任务。

比如:

  • 你要先知道有哪些模型
  • 然后找到这些模型在你关心的场景上的评测数据
  • 再根据能力和价格,做一个性价比分析
  • 最后得出一个结论

这四步,每一步都是大模型擅长的事。

只是以前这些数据散落在各处。

你要么自己跑测试,要么去各个平台一个个扒数据。

XSCT Bench 做的事情,就是把这些数据汇聚到一起,提供 MCP 协议,让你的 AI 助手能直接查询。

所以你只需要问一句:「润色场景用哪个模型比较好?」

AI 会自动调用 XSCT 的工具,帮你查数据、算成本、做对比,最后给你一个可执行的建议。

这就是「用 AI 帮你选 AI」。

02|5 分钟配置 MCP,让你的 AI 助手接上 XSCT

XSCT 的 MCP 服务是免费的,无需注册、无需 API Key。

你只需要一个 URL。

第一步:获取配置

打开 xsct.ai/about ,往下滚,找到「MCP 服务」部分。

打开网易新闻 查看精彩图片

这就是你需要的全部配置,点右边的「复制」按钮,一键复制。

第二步:在你的 AI 客户端里添加 MCP 服务器

打开你的 Cherry Studio 。

如果没有的,可以参考。

打开设置 → MCP 服务器 → 点右上角的「+ 添加」→ 选「从 JSON 导入」。

打开网易新闻 查看精彩图片

找到 MCP 服务器设置,点「从 JSON 导入」。

第三步:粘贴配置

把刚才复制的 JSON 粘贴进去,点「确定」。

打开网易新闻 查看精彩图片

粘贴进去就行,不用改任何东西。

第四步:选择传输类型

这一步很关键:类型要选「可流式传输的 HTTP (streamableHttp)」。

打开网易新闻 查看精彩图片

选错类型会连不上,记得选 streamableHttp。

第五步:打开开关,完成

配置完成后,打开开关,你会看到「工具 (8)」的标签——说明 8 个 MCP 工具已经加载成功了。

打开网易新闻 查看精彩图片

看到「工具 (8)」就说明配置成功了。

第六步(可选):看看有哪些工具

切到「工具」Tab,可以看到 XSCT 提供的全部 8 个工具:

打开网易新闻 查看精彩图片

get_leaderboard:查排行榜get_model_scores:查某个模型的各维度评分compare_models:对比两个模型search_testcases:搜索测试用例get_model_case_result:查模型在某用例上的表现get_dimensions:查所有评测维度calculate_cost:计算模型成本get_testcase_curl:生成可复现的 CURL 命令

这 8 个工具覆盖了选型决策的全流程:查榜单、看评分、搜场景、比模型、算成本。

不过你不需要记住这些。

因为 AI 会自动帮你调用

第七步(可选):添加你的助手

打开网易新闻 查看精彩图片

教程不再赘述,只是这里需要单独讲一个:

要记得切到 MCP 服务器这里,点击「手动」,再点击开启。

模型推荐 Kimi K2.5 或者 OpenRouter。

打开网易新闻 查看精彩图片

关闭面板,就完成了。

03|实战:用自然语言完成一次完整的模型选型

配置好了,开始实战。

我直接问一个真实业务问题:

「润色场景有哪些模型比较好?」

然后看 AI 怎么帮我解决这个问题。

第一轮:AI 理解需求,自动调用工具

打开网易新闻 查看精彩图片

我只问了一句话,AI 自动调用了两个工具:

  • search_testcases:搜索润色相关的测试用例
  • get_leaderboard:获取润色维度的排行榜

它先去找有哪些相关的测试用例,再去看排行榜。

你不需要关心调用哪个工具,AI 会自动判断。

第二轮:AI 返回场景分类和建议

打开网易新闻 查看精彩图片

AI 告诉我,XSCT 针对润色场景设计了 8 个测试用例:

  • 产品说明书口语化转正式(风格转换)
  • 简历自我介绍简洁化(精炼压缩)
  • 投诉信语气柔化调整(情感基调调整)
  • 学术摘要科普化改写(专业术语通俗化)
  • 营销文案逻辑重构(逻辑重组)
  • 错别字病句综合修正(错误修正)
  • 年终总结文采提升(文采提升)

而且还给了建议:日常简单润色选性价比模型,专业复杂润色选顶级模型。

但这还不够。

我需要更具体的答案。

第三轮:我追问一个企业级场景

我继续问:

「如果输入是 5000 token,输出 2000 token,平均用户一天发起 300 次,其中 80% 都能触发 KV Cache,哪些模型比较好?」
打开网易新闻 查看精彩图片

AI 开始拆解这个问题:

  • 20% 请求(60次):完整计算,输入 5000 token 全价
  • 80% 请求(240次):KV Cache 命中,输入 token 成本按 1 折计算

然后它调用了 5 个工具(为了避免大模型幻觉,我特意为你制作了计算器,AI 传入参数就可以直接计算),并行计算多个模型的成本。

第四轮:AI 生成完整的成本分析报告

打开网易新闻 查看精彩图片

AI 生成了一份完整的「润色场景 · 带 KV Cache 的成本分析报告」。

关键数据:

  • 正常请求:60次,输入 5,000 token,输出 2,000 token
  • Cache Hit:240次,输入 500(打 1 折),输出 2,000 token
  • 日均合计:300次,输入 420,000 token,输出 600,000 token

结论:如果没有 Cache,日均输入是 1,500,000 token;有了 Cache,输入成本压缩到 28%。

第五轮:完整的模型对比排名

然后就是 AI 基于数据,给你生成推荐的排名。

打开网易新闻 查看精彩图片

各模型每日成本对比(含 KV Cache):

  1. 1.MIMO V2 Flash:综合分 94.4,月均 ¥74.4
  1. 2.Qwen3.5 Plus:综合分 95.0,月均 ¥130.2
  1. 3.Grok 4.1 Fast:综合分 92.1,月均 ¥136.8
  1. 4.LongCat Flash:综合分 92.6,月均 ¥159.6
  1. 5.Qwen3-Max:综合分 94.8,月均 ¥215.4
  1. 6.Kimi K2.5:综合分 94.5,月均 ¥412.2
  1. 7.Gemini 3.1 Pro:综合分 94.0,月均 ¥2172
  1. 8.Claude Sonnet 4.6:综合分 95.0,月均 ¥2808

同样 95 分左右的能力,月费从 ¥74 到 ¥2808,差了 38 倍。

这就是为什么我提供 MCP 服务吗,让 AI 来帮你做这件事…

你可以肉眼看效果,让模型来给你做运算,省点脑力。

第六轮:AI 给出分层推荐建议

打开网易新闻 查看精彩图片

过程中,AI 也没到此为止,给出了分层建议:

不推荐:Claude Sonnet 4.6 / Gemini 3.1 Pro

  • 性能并未碾压其他模型(综合分相近)
  • 但月费分别高达 ¥2808 / ¥2172

首选:Qwen3.5 Plus

  • 性能与 Claude 打平(同为 95.0)
  • 只要 ¥130,适合对效果要求高的场景

备选:MIMO V2 Flash

  • 仅 ¥74,综合分 94.4

然后他还引导我,问我要不要看看效果对比。

第七轮:好啊。

我想看看这两个模型在具体用例上的表现。

「可以啊,对比一下用例吧。」
打开网易新闻 查看精彩图片

AI 自动调用我提供的 compare_models 工具了,选取了 3 个有代表性的润色场景来深度对比。

第八轮:最终给你完整的决策指南

打开网易新闻 查看精彩图片

最终的对比结果:

  1. 1.MIMO V2 Flash:成本 ¥74.4,润色平均分 94.0,性价比指数 12.6
  1. 2.Qwen3-Max:成本 ¥215.4,润色平均分 95.4,性价比指数 4.4
  1. 3.Claude Sonnet 4.6:成本 ¥2808,润色平均分 96.1,性价比指数 0.3

AI 还给了具体的选择建议:

选 MIMO V2 Flash 如果:

  • 预算敏感(月省 ¥141,年省 ¥1692)
  • 高频批量处理(简历压缩、简单文案优化)
  • 追求极致性价比,对中等难度场景的瑕疵容忍
  • 风险点:中等难度场景偶有冗余保留,需人工二次校对

选 Qwen3-Max 如果:

  • 专业场景为主(医疗、法律、企业公关文书)
  • 需要深度情感调整(投诉处理、客户沟通)
  • 要求输出结构化和分析深度
  • 风险点:成本是 MIMO 的 2.9 倍,基础场景偶有细节失误

这不省老鼻子事了吗。

但!还没有到此为止。

这些都是 AI 说的,你想要跑一下这个用例怎么办?

04|AI 还能帮你生成可执行的代码

我还提供了 Get CURL 的工具。

如果你想在自己的环境里测试这些场景,AI 可以直接帮你生成 CURL 命令。

打开网易新闻 查看精彩图片

AI 直接生成了 3 个可执行的代码片段:

  • 用例 1:简历/摘要简洁化(数据保留型润色)
  • 用例 2:投诉信语气柔化调整(情感基调型润色)

不需要你自己去查 API 文档、拼参数,你改一下 KEY ,复制粘贴到终端就能跑。或者直接把 KEY 发给 AI,让 AI 给你生成最终版的。

是不是很贴心!!

05|小结:整个过程做了什么?

回顾一下,从「润色场景用哪个模型好」这个问题开始,到最后拿到一个完整的决策建议,我一共发了三句话。

  1. 1.问了一句「润色场景有哪些模型比较好」
  1. 2.追问了一个企业级成本计算场景
  1. 3.追问了一个「对比一下用例」

就这三句话。

AI 自动帮我做了:

  • 搜索相关测试用例
  • 获取排行榜数据
  • 理解 KV Cache 命中率并拆解计算逻辑
  • 批量计算 8 个模型的成本
  • 生成完整的成本分析报告
  • 给出分层推荐建议
  • 深度对比具体用例表现
  • 生成可执行的 CURL 命令

这就是 XSCT + MCP 的价值。

你只官问,剩下的,交给 AI。

06|如果你还是想自己看数据

当然,你还是可以直接上xsct.ai看数据。

也可以点击「查看原文」立刻访问。

下面简单介绍一下平台的核心功能。

为了能让你看得更舒服,我这两天做了海量的优化!

用例搜索:按场景找评测

打开网易新闻 查看精彩图片

搜索「文风迁移」,找到 1 个匹配用例。支持关键词 + 语义混合搜索,不会漏掉相关场景。

用例详情:完整的 Prompt 和评分标准

打开网易新闻 查看精彩图片

每个用例都有完整的 System Prompt、User 输入、任务要求。

右侧是 34 个模型的评测结果排名。

评分标准:供你参考

打开网易新闻 查看精彩图片

每个维度的权重(50% 文风契合度、30% 文学表达质量、20% 指令遵循)和评分标准都可以直接阅读。

难度分层:基础 / 进阶 / 困难

打开网易新闻 查看精彩图片

同一个用例,困难档的任务复杂度大幅提升。

基础档排名靠前的模型,困难档可能掉分。性价比冠军也可能换人。

模型结果详情:看实际输出

打开网易新闻 查看精彩图片

Qwen 3 Max 在「散文文风迁移写作」用例上的详细结果:

  • 综合评分:84.3
  • 评分细项:文风契合度 82 × 35%、文学表达质量 81.2 × 0%、指令遵循 89 × 25%…
  • 右侧是模型实际输出的散文,你可以自己判断质量
  • 底部显示单次调用费用:$0.002 刀(¥0.014)

这个用例下,尽可能完整的详情,都能看到了。

你要是看不清,你还可以拖一下分栏尺寸…

打开网易新闻 查看精彩图片

图像生成:多模型同台对比

打开网易新闻 查看精彩图片

「简单人物肖像」用例,7 个模型生成的图同台对比,准确性一目了然。

还有一些易用性优化~

你还可以直接点进去查看细节。

打开网易新闻 查看精彩图片

也可以点击右上角直接切换难度。

打开网易新闻 查看精彩图片

AI 还帮你识别了图像没有遵循指令的地方。

打开网易新闻 查看精彩图片

鼠标移动这里可以快速查看其他用例,不用像之前那样再回到用例集了。

对于你喜欢的用例,还能直接置顶。

打开网易新闻 查看精彩图片

对于你关注的模型,也可以直接置顶。

它会横跨所有的用例里面置顶,帮助你快速找到你关注的模型(最多 5 个)。

打开网易新闻 查看精彩图片

所有的更新日志,你都可以在页面的博客/更新日志里面看到。

打开网易新闻 查看精彩图片

07|希望你能喜欢。

做完这个 MCP 服务,我自己用了几次,体验确实很舒服。

以前选模型,我要自己翻文档、查价格、算成本、写测试脚本。

现在我只需要问一句话。

但这个服务还有很多可以优化的地方:

比如工具的响应速度还能快一点;

一些边界 Case 还没调整完;

测评数据数据还在持续更新中,有些新模型还没来得及跑…

开工之后,我也会非常忙,更新频率可能会降低(但一定会持续维护)

但我非常希望,它能帮到你!

可以点击「查看原文」立刻访问。

终|你的下一个问题是什么?

这篇文章教你的是「方法」,但真正有价值的是「你的问题」。

MCP 服务已经配置好了,XSCT 的 8 个工具也在那里。

你可以问:

「代码生成场景,用哪个模型性价比最高?」

「我要做一个客服 AI ,每天调用 10 万次,成本怎么算?」

「Qwen3-Max 和 Claude 在创意写作上有什么差异?」

「图像生成哪个模型中文最好?」

我想,AI 都会帮你找到答案。

地址:xsct.ai

如果这篇文章对你有帮助,欢迎转给你身边正在选模型的朋友。

你现在最想问的,是哪个场景下用哪个模型?

欢迎评论区告诉我哦!

我是洛小山,我们下次见。

Ps. 非常感谢这些小伙伴们对我的支持,你们的支持就是我持续更新的动力!

打开网易新闻 查看精彩图片

关于我

我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点,只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品,欢迎关注我,我们一起进化。

本文知识产权归洛小山所有。

未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。