今天聊一个对在读研究生、想发论文的兄弟特别友好的开源工具:

Academic Research Skills(ARS),整个套件围着 Claude Code 转,配套还有 Codex CLI 版本

 github.com/Imbad0202/academic-research-skills 简介
打开网易新闻 查看精彩图片
github.com/Imbad0202/academic-research-skills 简介

ARS 是一套 Claude Code Skills 集合,从研究 → 写作 → 评审 → 修订 → 定稿全流程都有,作者把自己用 AI 协作写论文的工作流完整开源出来:

❝ AI is your copilot, not the pilot这工具不会替你写论文,它专门处理那些累活脏活 —— 翻参考文献、整引用格式、核数据、查逻辑一致性,让你把脑子留给真正需要思考的部分:定问题、选方法、解读数据、写出「我认为……」后面那句话

更狠的是,ARS 不是「降AI味」工具,它不帮你藏「我用了 AI」这个事实,它帮你写得更好:Style Calibration 学你过去文章的语气,Writing Quality Check 抓那些一看就是机器味儿的句式

为什么坚持 human-in-the-loop

作者引了一篇 Nature 651: 914-919 的文章 —— Lu et al. (2026) 的 The AI Scientist,第一个全自动 AI 研究系统通过顶会盲审(ICLR 2025 workshop,6.33/10 分,workshop 平均才 4.87)

听起来牛逼,但他们的 Limitations 里列出了一堆全自动 AI 科研流水线躲不掉的坑:

  • 实现 bug

  • 幻觉结果

  • 走捷径

  • 把 bug 当 insight

  • 编造方法论

  • 框架锁死

  • 引用幻觉(这条最致命)

ARS 的核心信念是:人类研究员 + AI 增强,比单独哪一边都更能躲过这些雷。它在 Stage 2.5 和 Stage 4.5 设置了完整性闸门,跑一个 7 模式的强制检查清单

打开网易新闻 查看精彩图片

v3.3 还吸收了 Google 的 PaperOrchestra(arxiv 2604.05018)的方法:Semantic Scholar API 验证、防数据泄漏协议、VLM 图表验证、得分轨迹追踪

核心能力一览

ARS 不是一个 Skill,是四套 agent team 组合:

模块

智能体数

主要解决的问题

Deep Research

13 个

苏格拉底式引导、PRISMA 系统综述、意图识别、对话健康度监测、Semantic Scholar 验证

Academic Paper

12 个

Style Calibration、Writing Quality Check、LaTeX 加固、可视化、修订辅导、引用转换

Academic Paper Reviewer

7 个

EIC + 3 动态评审 + Devil's Advocate,0–100 打分、攻击强度保留、R&R 追溯矩阵

Academic Pipeline

10 阶段

全流程编排,自适应检查点、Material Passport、可选 repro_lock 、跨模型完整性验证

一句话总结 ARS 的设计哲学:全流程分阶段,每个阶段都强制做完整性检查,不让 AI 一口气把活干到底

安装

要求:

  • Claude Code(最新版)

  • 导出 ANTHROPIC_API_KEY

  • 可选:Pandoc(DOCX 导出)、tectonic + 思源宋体 TC(APA 7.0 PDF 导出)

30 秒装好:

/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills

Codex CLI 用户用同名插件:

# Codex 版本,同样的工作流,打包成单个 skill
gh repo clone Imbad0202/academic-research-skills-codex
使用

装完直接跑:

# 苏格拉底式对话,帮你梳理论文章节结构
/ars-plan


# 或者跑文献综述
/ars-lit-review "你的研究主题"

全流程命令:

  • /ars-plan :选题与章节结构规划

  • /ars-lit-review :文献综述

  • 数据/方法核查(Stage 2.5 闸门)

  • 写作 + 风格对齐(Style Calibration 会拿你过往论文当语料)

  • 评审模式:可开启 calibration,让你拿自己手工标注的金标准来测它的 FNR/FPR

  • 定稿与格式化(APA 7.0 PDF / DOCX)

成本

按官方 docs/PERFORMANCE.md 给的口径:

❝ 一篇 15k 词的论文,跑完整 10 阶段流水线,token 成本大约 $4–6

这个数字我觉得挺合理。日常拿 Claude Code Pro 订阅,配合官方推荐的「Skip Permissions + Agent Team」设置,跑一篇硕士小论文的成本完全可控

最让我震惊的一个数据

我在 README 的 showcase 部分看到一行字,差点没坐稳:

❝ Post-Publication Audit Report:独立全引用审计,在 3 轮完整性检查之外又找出 21/68 条问题

也就是说,就算你跑了 3 遍 ARS 内置的引用检查,仍然有 1/3 的引用问题会漏检

这数据放在这里,反而让我更相信作者「human-in-the-loop」的坚持是对的。AI 永远会漏,但是把漏检率从 100% 压到 30%,再交给人收尾,这才是真正能用的工作流

总结

适合两类人:

  • 在读研究生选题、文献综述、写作风格对齐这三块直接受益

  • 想发英文论文的中国研究者 :Style Calibration 能学你(或你导师)的英文写作风格,减少「AI 味」

整套架构最值得抄的设计是「质量闸门」—— 不是写完一次性输出,而是分阶段卡住,每个阶段都强制做完整性检查。这套思路放到其他长链路 Agent 上也通用,搞 Agent 工程的兄弟可以单看 ai_research_failure_modes.md 那份清单,几乎能直接搬到自己的产品里

许可证 CC BY-NC 4.0(非商用),学术使用没问题

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!