AI-Infra-Auto-Driven-SKILLS v0.1.0：给 Codex / Cl...|auto|codex|driven|patch|skills|新论文|源码

来源：市场资讯

（来源：GiantPandaLLM）

AI-Infra-Auto-Driven-SKILLS v0.1.0

工程地址：https://github.com/BBuf/AI-Infra-Auto-Driven-SKILLS，欢迎 star 和使用。

AI-Infra-Auto-Driven-SKILLS 达到 400 stars 后，发布 v0.1.0。这个版本整理了当前可用的一批 AI Infra SKILLS，并补充对应的使用说明。

感谢 @haosdent 和 @changhuaixin 两位 contributor。@haosdent 贡献了 vllm-sota-humanize-loop，使同一套 SOTA loop 覆盖 SGLang 和 vLLM 两个框架。@changhuaixin 贡献了 llm-pipeline-analysis、llm-serving-capacity-planner、model-compute-simulation，分别对应 trace 下钻、容量分析和 FLOPs/MFU 估算。

这个仓库沉淀推理框架开发中的流程约束：先做 benchmark，避免不公平的结果比较；先检查启动日志，再决定是否修改源码；profile 时区分 prefill/decode；修改后回到同一个 workload 复测。这些流程被整理成 SKILL.md，供 Codex / Claude Code 按步骤执行。

v0.1.0 Release 地址：https://github.com/BBuf/AI-Infra-Auto-Driven-SKILLS/releases/tag/v0.1.0

这套 SKILLS 可用于 Codex 和 Claude Code。目录结构是普通的 SKILL.md，把对应目录放到各自的 skill 目录下即可。以 v0.1.0 为例：

git clone --branch v0.1.0 https://github.com/BBuf/AI-Infra-Auto-Driven-SKILLS.gitcd AI-Infra-Auto-Driven-SKILLS# Codexmkdir -p "${CODEX_HOME:-$HOME/.codex}/skills"ln -s "$PWD/skills/llm-serving-auto-benchmark" "${CODEX_HOME:-$HOME/.codex}/skills/llm-serving-auto-benchmark"ln -s "$PWD/skills/llm-torch-profiler-analysis" "${CODEX_HOME:-$HOME/.codex}/skills/llm-torch-profiler-analysis"ln -s "$PWD/skills/sglang-sota-humanize-loop" "${CODEX_HOME:-$HOME/.codex}/skills/sglang-sota-humanize-loop"ln -s "$PWD/skills/vllm-sota-humanize-loop" "${CODEX_HOME:-$HOME/.codex}/skills/vllm-sota-humanize-loop"ln -s "$PWD/model-pr-optimization-history" "${CODEX_HOME:-$HOME/.codex}/skills/model-pr-history-knowledge"# Claude Codemkdir -p "$HOME/.claude/skills"ln -s "$PWD/skills/llm-serving-auto-benchmark" "$HOME/.claude/skills/llm-serving-auto-benchmark"ln -s "$PWD/skills/llm-torch-profiler-analysis" "$HOME/.claude/skills/llm-torch-profiler-analysis"ln -s "$PWD/skills/sglang-sota-humanize-loop" "$HOME/.claude/skills/sglang-sota-humanize-loop"ln -s "$PWD/skills/vllm-sota-humanize-loop" "$HOME/.claude/skills/vllm-sota-humanize-loop"ln -s "$PWD/model-pr-optimization-history" "$HOME/.claude/skills/model-pr-history-knowledge"

可以按任务安装需要的 skill。服务压测对应 llm-serving-auto-benchmark；trace 分析对应 llm-torch-profiler-analysis 和 llm-pipeline-analysis；完整 SOTA loop 对应 benchmark、profiler、pipeline analysis、model PR history、Humanize/RLCR 相关 skill。

0x1. Core Skills

这版核心 skill 包含 10 个，对应推理框架开发、debug、profile、benchmark 中的常见场景：

Skill

解决的问题

llm-serving-auto-benchmark

对 SGLang、vLLM、TensorRT-LLM 或其它 OpenAI-compatible server 做公平的 serving benchmark 搜索。

llm-serving-capacity-planner

从 SGLang/vLLM 启动日志里看 GPU memory、KV cache、request capacity 和 OOM pressure。

llm-torch-profiler-analysis

读 torch profiler trace，输出 kernel、overlap、fuse opportunity 三张表，并把 prefill/decode 分开。

llm-pipeline-analysis

继续往 forward、layer、kernel timeline 下钻，找代表层、anchor kernel 和 Perfetto 时间范围。

model-compute-simulation

根据模型结构估算 operator shapes、FLOPs、MFU，再把 kernel 和 op 对起来看。

sglang-humanize-review

使用 2024-2025 SGLang human review 语料做代码审查，覆盖 maintainer review 中常见的正确性、测试、性能和维护性问题。

sglang-sota-humanize-loop

输入模型和硬件预算后，使 SGLang 在固定 workload/SLA 下追平或超过当前 benchmark 中可复现的最优 competitor。

vllm-sota-humanize-loop

同样的模型级 SOTA loop，不过目标框架换成 vLLM。

sglang-prod-incident-triage

线上 serving 出现 queue growth、timeout、wrong output、crash、hang 时，先提取 replay，再决定下一步 debug。

model-architecture-diagram

找 DeepSeek、GLM、Qwen、Kimi、MiniMax、Step、Hunyuan、Qwen3-VL 等模型的公开原始架构图。

另外还有 model-pr-optimization-history。它用于保存模型优化 PR 的本地知识记录。SOTA loop 在修改源码前会先查询它，确认目标模型家族已有的相关 PR、修改文件、验证风险和可复用思路，减少重复尝试。

0x2. 两个 SOTA Loop

v0.1.0 包含两个 SOTA loop。

sglang-sota-humanize-loop 面向 SGLang。给定模型和硬件预算后，流程先运行固定公平 benchmark，再判断 SGLang 是否仍有性能差距。如果存在差距，继续执行 profile、pipeline analysis、源码修改和复测。benchmark 表用于决定下一轮是否需要 patch、patch 目标位置，以及 patch 后是否产生收益。

vllm-sota-humanize-loop 面向 vLLM。流程会先对 vLLM、SGLang、TensorRT-LLM 做同预算搜索，再判断 vLLM 是否落后。如果存在差距，继续收集 profiler、pipeline analysis 和必要的 NCU 证据，再修改 vLLM 源码。

两个 loop 共同遵循以下规则：

避免将已调优的目标框架与 competitor 默认配置比较，每个框架都要 bounded search。
模型、精度、GPU 数、workload、SLA 固定之后，再讨论性能差距。
先 profile，再用 llm-pipeline-analysis 定位到层和 kernel，然后进入源码修改。
如果改的是 CUDA / Triton / CUTLASS 这类 kernel 路径，需要 counter 证据时再接 ncu-report-skill。
每一轮都记录 benchmark、profile、失败尝试、patch 和复测结果，保证跨轮状态可追踪。

0x3. OpenAI Goals 和 4 组 Prompt

OpenAI Codex 的 /goal 是线程级的持久目标。SOTA 任务通常需要多轮 profile、源码修改、复测和继续/停止判断。/goal 用于在当前线程中记录完成条件：目标状态、成功证据和约束边界。官方入口在这里：https://developers.openai.com/codex/cli/slash-commands#set-an-experimental-goal-with-goal

prompts/ 目录包含 4 组 SGLang SOTA prompt：

Prompt

用法

sglang-sota-b200-prompts.md

普通 skill prompt 版本，面向 B200，覆盖 1/2/4/8 GPU 的模型级 SGLang SOTA 任务。

sglang-sota-h200-prompts.md

普通 skill prompt 版本，面向 H200，适合 ion8-h200 / ion9-h200 这类远端验证环境。

sglang-sota-b200-codex-goal-prompts.md

B200 的 Codex /goal 版本，把结果、证据、约束、清理规则和停止条件都写进持久目标。

sglang-sota-h200-codex-goal-prompts.md

H200 的 Codex /goal 版本，适合长时间 benchmark/profile/patch/revalidate 的任务。

这些 prompt 包含以下约束：开始前查询相关 open PR；workspace 必须干净；benchmark/profile 前记录 GPU 状态；资源不足时等待或停止；只清理当前模型 cache，不清理共享 cache；需要提 PR 时只推到允许的 fork；每个优化 PR 都写明 benchmark 和 GSM8K/MMLU 精度表。

这些约束用于降低数据污染、工作区污染和错误基线比较带来的风险。

0x4. 为什么做这个仓库

在推理框架任务中使用 Agent 时，需要给出具体上下文和验证方式。性能优化不适合直接从单个现象进入源码修改。可复现流程通常包括：确认 benchmark 是否公平，区分 prefill/decode，检查 kernel timeline，查询历史 PR，做小范围源码改动，最后回到同一组 workload 复测。这个链条里任何一步缺失，后续结论都可能不可靠。

AI-Infra-Auto-Driven-SKILLS 将这些流程整理成 Agent 可执行的 skill，同时保留人工检查入口。工程判断仍由人完成，skill 负责自动化重复步骤、记录中间证据和维持跨轮状态。

如果你在做 SGLang、vLLM、TensorRT-LLM、模型适配、serving 排障或者性能追踪，可以参考这个仓库，也可以继续贡献新的 AI Infra SKILLS。