来源:市场资讯
(来源:GiantPandaLLM)
AI-Infra-Auto-Driven-SKILLS v0.1.0
工程地址:https://github.com/BBuf/AI-Infra-Auto-Driven-SKILLS,欢迎 star 和使用。
AI-Infra-Auto-Driven-SKILLS 达到 400 stars 后,发布 v0.1.0。这个版本整理了当前可用的一批 AI Infra SKILLS,并补充对应的使用说明。
感谢 @haosdent 和 @changhuaixin 两位 contributor。@haosdent 贡献了 vllm-sota-humanize-loop,使同一套 SOTA loop 覆盖 SGLang 和 vLLM 两个框架。@changhuaixin 贡献了 llm-pipeline-analysis、llm-serving-capacity-planner、model-compute-simulation,分别对应 trace 下钻、容量分析和 FLOPs/MFU 估算。
这个仓库沉淀推理框架开发中的流程约束:先做 benchmark,避免不公平的结果比较;先检查启动日志,再决定是否修改源码;profile 时区分 prefill/decode;修改后回到同一个 workload 复测。这些流程被整理成 SKILL.md,供 Codex / Claude Code 按步骤执行。
v0.1.0 Release 地址:https://github.com/BBuf/AI-Infra-Auto-Driven-SKILLS/releases/tag/v0.1.0
这套 SKILLS 可用于 Codex 和 Claude Code。目录结构是普通的 SKILL.md,把对应目录放到各自的 skill 目录下即可。以 v0.1.0 为例:
git clone --branch v0.1.0 https://github.com/BBuf/AI-Infra-Auto-Driven-SKILLS.gitcd AI-Infra-Auto-Driven-SKILLS# Codexmkdir -p "${CODEX_HOME:-$HOME/.codex}/skills"ln -s "$PWD/skills/llm-serving-auto-benchmark" "${CODEX_HOME:-$HOME/.codex}/skills/llm-serving-auto-benchmark"ln -s "$PWD/skills/llm-torch-profiler-analysis" "${CODEX_HOME:-$HOME/.codex}/skills/llm-torch-profiler-analysis"ln -s "$PWD/skills/sglang-sota-humanize-loop" "${CODEX_HOME:-$HOME/.codex}/skills/sglang-sota-humanize-loop"ln -s "$PWD/skills/vllm-sota-humanize-loop" "${CODEX_HOME:-$HOME/.codex}/skills/vllm-sota-humanize-loop"ln -s "$PWD/model-pr-optimization-history" "${CODEX_HOME:-$HOME/.codex}/skills/model-pr-history-knowledge"# Claude Codemkdir -p "$HOME/.claude/skills"ln -s "$PWD/skills/llm-serving-auto-benchmark" "$HOME/.claude/skills/llm-serving-auto-benchmark"ln -s "$PWD/skills/llm-torch-profiler-analysis" "$HOME/.claude/skills/llm-torch-profiler-analysis"ln -s "$PWD/skills/sglang-sota-humanize-loop" "$HOME/.claude/skills/sglang-sota-humanize-loop"ln -s "$PWD/skills/vllm-sota-humanize-loop" "$HOME/.claude/skills/vllm-sota-humanize-loop"ln -s "$PWD/model-pr-optimization-history" "$HOME/.claude/skills/model-pr-history-knowledge"可以按任务安装需要的 skill。服务压测对应 llm-serving-auto-benchmark;trace 分析对应 llm-torch-profiler-analysis 和 llm-pipeline-analysis;完整 SOTA loop 对应 benchmark、profiler、pipeline analysis、model PR history、Humanize/RLCR 相关 skill。
0x1. Core Skills
这版核心 skill 包含 10 个,对应推理框架开发、debug、profile、benchmark 中的常见场景:
Skill
解决的问题
llm-serving-auto-benchmark
对 SGLang、vLLM、TensorRT-LLM 或其它 OpenAI-compatible server 做公平的 serving benchmark 搜索。
llm-serving-capacity-planner
从 SGLang/vLLM 启动日志里看 GPU memory、KV cache、request capacity 和 OOM pressure。
llm-torch-profiler-analysis
读 torch profiler trace,输出 kernel、overlap、fuse opportunity 三张表,并把 prefill/decode 分开。
llm-pipeline-analysis
继续往 forward、layer、kernel timeline 下钻,找代表层、anchor kernel 和 Perfetto 时间范围。
model-compute-simulation
根据模型结构估算 operator shapes、FLOPs、MFU,再把 kernel 和 op 对起来看。
sglang-humanize-review
使用 2024-2025 SGLang human review 语料做代码审查,覆盖 maintainer review 中常见的正确性、测试、性能和维护性问题。
sglang-sota-humanize-loop
输入模型和硬件预算后,使 SGLang 在固定 workload/SLA 下追平或超过当前 benchmark 中可复现的最优 competitor。
vllm-sota-humanize-loop
同样的模型级 SOTA loop,不过目标框架换成 vLLM。
sglang-prod-incident-triage
线上 serving 出现 queue growth、timeout、wrong output、crash、hang 时,先提取 replay,再决定下一步 debug。
model-architecture-diagram
找 DeepSeek、GLM、Qwen、Kimi、MiniMax、Step、Hunyuan、Qwen3-VL 等模型的公开原始架构图。
另外还有 model-pr-optimization-history。它用于保存模型优化 PR 的本地知识记录。SOTA loop 在修改源码前会先查询它,确认目标模型家族已有的相关 PR、修改文件、验证风险和可复用思路,减少重复尝试。
0x2. 两个 SOTA Loop
v0.1.0 包含两个 SOTA loop。
sglang-sota-humanize-loop 面向 SGLang。给定模型和硬件预算后,流程先运行固定公平 benchmark,再判断 SGLang 是否仍有性能差距。如果存在差距,继续执行 profile、pipeline analysis、源码修改和复测。benchmark 表用于决定下一轮是否需要 patch、patch 目标位置,以及 patch 后是否产生收益。
vllm-sota-humanize-loop 面向 vLLM。流程会先对 vLLM、SGLang、TensorRT-LLM 做同预算搜索,再判断 vLLM 是否落后。如果存在差距,继续收集 profiler、pipeline analysis 和必要的 NCU 证据,再修改 vLLM 源码。
两个 loop 共同遵循以下规则:
避免将已调优的目标框架与 competitor 默认配置比较,每个框架都要 bounded search。
模型、精度、GPU 数、workload、SLA 固定之后,再讨论性能差距。
先 profile,再用 llm-pipeline-analysis 定位到层和 kernel,然后进入源码修改。
如果改的是 CUDA / Triton / CUTLASS 这类 kernel 路径,需要 counter 证据时再接 ncu-report-skill。
每一轮都记录 benchmark、profile、失败尝试、patch 和复测结果,保证跨轮状态可追踪。
0x3. OpenAI Goals 和 4 组 Prompt
OpenAI Codex 的 /goal 是线程级的持久目标。SOTA 任务通常需要多轮 profile、源码修改、复测和继续/停止判断。/goal 用于在当前线程中记录完成条件:目标状态、成功证据和约束边界。官方入口在这里:https://developers.openai.com/codex/cli/slash-commands#set-an-experimental-goal-with-goal
prompts/ 目录包含 4 组 SGLang SOTA prompt:
Prompt
用法
sglang-sota-b200-prompts.md
普通 skill prompt 版本,面向 B200,覆盖 1/2/4/8 GPU 的模型级 SGLang SOTA 任务。
sglang-sota-h200-prompts.md
普通 skill prompt 版本,面向 H200,适合 ion8-h200 / ion9-h200 这类远端验证环境。
sglang-sota-b200-codex-goal-prompts.md
B200 的 Codex /goal 版本,把结果、证据、约束、清理规则和停止条件都写进持久目标。
sglang-sota-h200-codex-goal-prompts.md
H200 的 Codex /goal 版本,适合长时间 benchmark/profile/patch/revalidate 的任务。
这些 prompt 包含以下约束:开始前查询相关 open PR;workspace 必须干净;benchmark/profile 前记录 GPU 状态;资源不足时等待或停止;只清理当前模型 cache,不清理共享 cache;需要提 PR 时只推到允许的 fork;每个优化 PR 都写明 benchmark 和 GSM8K/MMLU 精度表。
这些约束用于降低数据污染、工作区污染和错误基线比较带来的风险。
0x4. 为什么做这个仓库
在推理框架任务中使用 Agent 时,需要给出具体上下文和验证方式。性能优化不适合直接从单个现象进入源码修改。可复现流程通常包括:确认 benchmark 是否公平,区分 prefill/decode,检查 kernel timeline,查询历史 PR,做小范围源码改动,最后回到同一组 workload 复测。这个链条里任何一步缺失,后续结论都可能不可靠。
AI-Infra-Auto-Driven-SKILLS 将这些流程整理成 Agent 可执行的 skill,同时保留人工检查入口。工程判断仍由人完成,skill 负责自动化重复步骤、记录中间证据和维持跨轮状态。
如果你在做 SGLang、vLLM、TensorRT-LLM、模型适配、serving 排障或者性能追踪,可以参考这个仓库,也可以继续贡献新的 AI Infra SKILLS。
热门跟贴