别再盲选模型了！AI 助手一句话帮你搞定！|ai助手|key|新论文|用例|盲选模型|调用

Hi，我是洛小山，你学习 AI 的搭子。

前两天发了 XSCT Bench 平台，现在 DAU 已经破 500 啦～

有好多朋友非常仔细研究用例，我收到了许多 BUG 反馈，收获了一些小开心。

但还有一些朋友问我：山佬山佬，你这数据太多了，我看不过来了，有没有一些懒人看网站的教程？

当然可以，必须有！

今天这篇，我用一个「润色场景选型」的完整案例，带你走一遍 XSCT 的高效打开方式。

你只需要用自然语言问一句话，AI 会替你把剩下的事全做了。

因为：我做了官方 MCP 应用，免鉴权，直接就可以接到你的 Cherry Studio 里。

01｜动动手，用 AI 来选 AI。

什么？！

这个网站 AI 也能看？！

对…

XSCT 本质就是一个交互良好的数据库。

而大模型选型这件事，本质上是一个信息检索 + 数据分析 + 决策推理的任务。

比如：

你要先知道有哪些模型

然后找到这些模型在你关心的场景上的评测数据

再根据能力和价格，做一个性价比分析

最后得出一个结论

这四步，每一步都是大模型擅长的事。

只是以前这些数据散落在各处。

你要么自己跑测试，要么去各个平台一个个扒数据。

XSCT Bench 做的事情，就是把这些数据汇聚到一起，提供 MCP 协议，让你的 AI 助手能直接查询。

所以你只需要问一句：「润色场景用哪个模型比较好？」

AI 会自动调用 XSCT 的工具，帮你查数据、算成本、做对比，最后给你一个可执行的建议。

这就是「用 AI 帮你选 AI」。

02｜5 分钟配置 MCP，让你的 AI 助手接上 XSCT

XSCT 的 MCP 服务是免费的，无需注册、无需 API Key。

你只需要一个 URL。

第一步：获取配置

打开 xsct.ai/about ，往下滚，找到「MCP 服务」部分。

这就是你需要的全部配置，点右边的「复制」按钮，一键复制。

第二步：在你的 AI 客户端里添加 MCP 服务器

打开你的 Cherry Studio 。

如果没有的，可以参考。

打开设置 → MCP 服务器 → 点右上角的「+ 添加」→ 选「从 JSON 导入」。

找到 MCP 服务器设置，点「从 JSON 导入」。

第三步：粘贴配置

把刚才复制的 JSON 粘贴进去，点「确定」。

粘贴进去就行，不用改任何东西。

第四步：选择传输类型

这一步很关键：类型要选「可流式传输的 HTTP (streamableHttp)」。

选错类型会连不上，记得选 streamableHttp。

第五步：打开开关，完成

配置完成后，打开开关，你会看到「工具 (8)」的标签——说明 8 个 MCP 工具已经加载成功了。

看到「工具 (8)」就说明配置成功了。

第六步（可选）：看看有哪些工具

切到「工具」Tab，可以看到 XSCT 提供的全部 8 个工具：

get_leaderboard：查排行榜get_model_scores：查某个模型的各维度评分compare_models：对比两个模型search_testcases：搜索测试用例get_model_case_result：查模型在某用例上的表现get_dimensions：查所有评测维度calculate_cost：计算模型成本get_testcase_curl：生成可复现的 CURL 命令

这 8 个工具覆盖了选型决策的全流程：查榜单、看评分、搜场景、比模型、算成本。

不过你不需要记住这些。

因为 AI 会自动帮你调用。

第七步（可选）：添加你的助手

教程不再赘述，只是这里需要单独讲一个：

要记得切到 MCP 服务器这里，点击「手动」，再点击开启。

模型推荐 Kimi K2.5 或者 OpenRouter。

关闭面板，就完成了。

03｜实战：用自然语言完成一次完整的模型选型

配置好了，开始实战。

我直接问一个真实业务问题：

「润色场景有哪些模型比较好？」

然后看 AI 怎么帮我解决这个问题。

第一轮：AI 理解需求，自动调用工具

我只问了一句话，AI 自动调用了两个工具：

search_testcases：搜索润色相关的测试用例

get_leaderboard：获取润色维度的排行榜

它先去找有哪些相关的测试用例，再去看排行榜。

你不需要关心调用哪个工具，AI 会自动判断。

第二轮：AI 返回场景分类和建议

AI 告诉我，XSCT 针对润色场景设计了 8 个测试用例：

产品说明书口语化转正式（风格转换）

简历自我介绍简洁化（精炼压缩）

投诉信语气柔化调整（情感基调调整）

学术摘要科普化改写（专业术语通俗化）

营销文案逻辑重构（逻辑重组）

错别字病句综合修正（错误修正）

年终总结文采提升（文采提升）

而且还给了建议：日常简单润色选性价比模型，专业复杂润色选顶级模型。

但这还不够。

我需要更具体的答案。

第三轮：我追问一个企业级场景

我继续问：

「如果输入是 5000 token，输出 2000 token，平均用户一天发起 300 次，其中 80% 都能触发 KV Cache，哪些模型比较好？」

AI 开始拆解这个问题：

20% 请求（60次）：完整计算，输入 5000 token 全价

80% 请求（240次）：KV Cache 命中，输入 token 成本按 1 折计算

然后它调用了 5 个工具（为了避免大模型幻觉，我特意为你制作了计算器，AI 传入参数就可以直接计算），并行计算多个模型的成本。

第四轮：AI 生成完整的成本分析报告

AI 生成了一份完整的「润色场景 · 带 KV Cache 的成本分析报告」。

关键数据：

正常请求：60次，输入 5,000 token，输出 2,000 token

Cache Hit：240次，输入 500（打 1 折），输出 2,000 token

日均合计：300次，输入 420,000 token，输出 600,000 token

结论：如果没有 Cache，日均输入是 1,500,000 token；有了 Cache，输入成本压缩到 28%。

第五轮：完整的模型对比排名

然后就是 AI 基于数据，给你生成推荐的排名。

各模型每日成本对比（含 KV Cache）：

1.MIMO V2 Flash：综合分 94.4，月均 ¥74.4

2.Qwen3.5 Plus：综合分 95.0，月均 ¥130.2

3.Grok 4.1 Fast：综合分 92.1，月均 ¥136.8

4.LongCat Flash：综合分 92.6，月均 ¥159.6

5.Qwen3-Max：综合分 94.8，月均 ¥215.4

6.Kimi K2.5：综合分 94.5，月均 ¥412.2

7.Gemini 3.1 Pro：综合分 94.0，月均 ¥2172

8.Claude Sonnet 4.6：综合分 95.0，月均 ¥2808

同样 95 分左右的能力，月费从 ¥74 到 ¥2808，差了 38 倍。

这就是为什么我提供 MCP 服务吗，让 AI 来帮你做这件事…

你可以肉眼看效果，让模型来给你做运算，省点脑力。

第六轮：AI 给出分层推荐建议

过程中，AI 也没到此为止，给出了分层建议：

不推荐：Claude Sonnet 4.6 / Gemini 3.1 Pro

性能并未碾压其他模型（综合分相近）

但月费分别高达 ¥2808 / ¥2172

首选：Qwen3.5 Plus

性能与 Claude 打平（同为 95.0）

只要 ¥130，适合对效果要求高的场景

备选：MIMO V2 Flash

仅 ¥74，综合分 94.4

然后他还引导我，问我要不要看看效果对比。

第七轮：好啊。

我想看看这两个模型在具体用例上的表现。

「可以啊，对比一下用例吧。」

AI 自动调用我提供的 compare_models 工具了，选取了 3 个有代表性的润色场景来深度对比。

第八轮：最终给你完整的决策指南

最终的对比结果：

1.MIMO V2 Flash：成本 ¥74.4，润色平均分 94.0，性价比指数 12.6

2.Qwen3-Max：成本 ¥215.4，润色平均分 95.4，性价比指数 4.4

3.Claude Sonnet 4.6：成本 ¥2808，润色平均分 96.1，性价比指数 0.3

AI 还给了具体的选择建议：

选 MIMO V2 Flash 如果：

预算敏感（月省 ¥141，年省 ¥1692）

高频批量处理（简历压缩、简单文案优化）

追求极致性价比，对中等难度场景的瑕疵容忍

风险点：中等难度场景偶有冗余保留，需人工二次校对

选 Qwen3-Max 如果：

专业场景为主（医疗、法律、企业公关文书）

需要深度情感调整（投诉处理、客户沟通）

要求输出结构化和分析深度

风险点：成本是 MIMO 的 2.9 倍，基础场景偶有细节失误

这不省老鼻子事了吗。

但！还没有到此为止。

这些都是 AI 说的，你想要跑一下这个用例怎么办？

04｜AI 还能帮你生成可执行的代码

我还提供了 Get CURL 的工具。

如果你想在自己的环境里测试这些场景，AI 可以直接帮你生成 CURL 命令。

AI 直接生成了 3 个可执行的代码片段：

用例 1：简历/摘要简洁化（数据保留型润色）

用例 2：投诉信语气柔化调整（情感基调型润色）

不需要你自己去查 API 文档、拼参数，你改一下 KEY ，复制粘贴到终端就能跑。或者直接把 KEY 发给 AI，让 AI 给你生成最终版的。

是不是很贴心！！

05｜小结：整个过程做了什么？

回顾一下，从「润色场景用哪个模型好」这个问题开始，到最后拿到一个完整的决策建议，我一共发了三句话。

1.问了一句「润色场景有哪些模型比较好」

2.追问了一个企业级成本计算场景

3.追问了一个「对比一下用例」

就这三句话。

AI 自动帮我做了：

搜索相关测试用例

获取排行榜数据

理解 KV Cache 命中率并拆解计算逻辑

批量计算 8 个模型的成本

生成完整的成本分析报告

给出分层推荐建议

深度对比具体用例表现

生成可执行的 CURL 命令

这就是 XSCT + MCP 的价值。

你只官问，剩下的，交给 AI。

06｜如果你还是想自己看数据

当然，你还是可以直接上xsct.ai看数据。

也可以点击「查看原文」立刻访问。

下面简单介绍一下平台的核心功能。

为了能让你看得更舒服，我这两天做了海量的优化！

用例搜索：按场景找评测

搜索「文风迁移」，找到 1 个匹配用例。支持关键词 + 语义混合搜索，不会漏掉相关场景。

用例详情：完整的 Prompt 和评分标准

每个用例都有完整的 System Prompt、User 输入、任务要求。

右侧是 34 个模型的评测结果排名。

评分标准：供你参考

每个维度的权重（50% 文风契合度、30% 文学表达质量、20% 指令遵循）和评分标准都可以直接阅读。

难度分层：基础 / 进阶 / 困难

同一个用例，困难档的任务复杂度大幅提升。

基础档排名靠前的模型，困难档可能掉分。性价比冠军也可能换人。

模型结果详情：看实际输出

Qwen 3 Max 在「散文文风迁移写作」用例上的详细结果：

综合评分：84.3

评分细项：文风契合度 82 × 35%、文学表达质量 81.2 × 0%、指令遵循 89 × 25%…

右侧是模型实际输出的散文，你可以自己判断质量

底部显示单次调用费用：$0.002 刀（¥0.014）

这个用例下，尽可能完整的详情，都能看到了。

你要是看不清，你还可以拖一下分栏尺寸…

图像生成：多模型同台对比

「简单人物肖像」用例，7 个模型生成的图同台对比，准确性一目了然。

还有一些易用性优化～

你还可以直接点进去查看细节。

也可以点击右上角直接切换难度。

AI 还帮你识别了图像没有遵循指令的地方。

鼠标移动这里可以快速查看其他用例，不用像之前那样再回到用例集了。

对于你喜欢的用例，还能直接置顶。

对于你关注的模型，也可以直接置顶。

它会横跨所有的用例里面置顶，帮助你快速找到你关注的模型（最多 5 个）。

所有的更新日志，你都可以在页面的博客/更新日志里面看到。

07｜希望你能喜欢。

做完这个 MCP 服务，我自己用了几次，体验确实很舒服。

以前选模型，我要自己翻文档、查价格、算成本、写测试脚本。

现在我只需要问一句话。

但这个服务还有很多可以优化的地方：

比如工具的响应速度还能快一点；

一些边界 Case 还没调整完；

测评数据数据还在持续更新中，有些新模型还没来得及跑…

开工之后，我也会非常忙，更新频率可能会降低（但一定会持续维护）

但我非常希望，它能帮到你！

可以点击「查看原文」立刻访问。

终｜你的下一个问题是什么？

这篇文章教你的是「方法」，但真正有价值的是「你的问题」。

MCP 服务已经配置好了，XSCT 的 8 个工具也在那里。

你可以问：

「代码生成场景，用哪个模型性价比最高？」

「我要做一个客服 AI ，每天调用 10 万次，成本怎么算？」

「Qwen3-Max 和 Claude 在创意写作上有什么差异？」

「图像生成哪个模型中文最好？」

我想，AI 都会帮你找到答案。

地址：xsct.ai

如果这篇文章对你有帮助，欢迎转给你身边正在选模型的朋友。

你现在最想问的，是哪个场景下用哪个模型？

欢迎评论区告诉我哦！

我是洛小山，我们下次见。

Ps. 非常感谢这些小伙伴们对我的支持，你们的支持就是我持续更新的动力！

关于我

我是洛小山，一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点，只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品，欢迎关注我，我们一起进化。

本文知识产权归洛小山所有。

未经授权，禁止抓取本文内容，用于模型训练以及二次创作等用途。

别再盲选模型了！AI 助手一句话帮你搞定！

热搜

热门跟贴

热搜

热门跟贴

相关推荐

别被“AI暴富”忽悠了！学完不能变现的三大坑，你踩了吗？

傻傻学AI就想涨工资？老板不会为“半吊子”技能多付一分钱

别折腾ClawBot了！阿里QoderWork：只要会打字，电脑就能自己干活

电工猴不钓鱼，改成电鱼了？现在Ai的功能太强大了吧！

AdaResoner实现Agentic Vision的主动「视觉工具思考」

春节AI暗战

多模态DeepResearch，成了！

号称“AI打工人”的OpenClaw值得用吗？每经深度实测：找不到文件、搜索报错、发邮件卡死！专家：远非生产力工具

开年重磅万字长文范式复盘：我们在AI奇点之中

揭秘GLM-5技术底牌：「异步强化学习框架Slime」成终极杀招

Codeforces难题不够刷？谢赛宁等造了AI出题机，能生成原创编程题

字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构

AI 助手这么多，只有它是真踩过雷的

当Search Agent遇上不靠谱搜索结果，清华团队祭出自动化红队框架

别再一键贴代码！Anthropic点名3种「用AI不退化」真方法

ApdativeNN：建模类人自适应感知机制，突破机器视觉不可能三角

兼得快与好！训练新范式TiM，原生支持FSDP+Flash Attention

阿里的AI叙事，多个夸克，差了豆包

全网围观：Meta超级智能安全总监，被OpenClaw删光了邮件

Sakana AI造了个数字生命「培养皿」，AI学会打架、结盟、抢地盘