2026年6月28日,大学教授Jeremy Nguyen在X上发了一条帖子。寥寥数语,直接穿透了学术圈和AI圈的交叉地带。
"OpenDraft: 'Claude Code for research papers'. 19 specialized agents doing research in parallel. Open source."
「OpenDraft:论文写作版的Claude Code。19个专业agent并行研究。开源。」
89个赞,23次转发,200次收藏,过万浏览。收藏/点赞比接近2.3:1——典型的"先存下来,回头再看"信号。
Nguyen说的这个东西,叫 OpenDraft 。一个MIT开源许可的Python项目。
怎么用?你输入一个研究主题。10到20分钟后,几十个AI agent协作吐出一篇 30-50条引用、每条都查得到原论文 的完整学术草稿。PDF、Word、LaTeX,全格式直接导出。
出来的是结构完整的论文——IMRaD章节、方法论、讨论、参考文献齐全,一本正经。
19个agent,一个虚拟研究团队
大多数人理解的"AI写论文"是这样的:打开ChatGPT,输入题目,回车。
出来一堆东西,参考文献十个里有八个是编的——作者名字看着眼熟,期刊也对,DOI格式也没毛病,但那篇论文根本不存在。
OpenDraft的做法完全不同。它模拟了一个学术研究团队的完整工作流——19个专业agent分阶段协作,各干各的活,有明确的分工和交接。
整个流水线拆开来看,是6个阶段:
研究阶段 ——Scout agent冲向CrossRef、OpenAlex、Semantic Scholar(2亿+论文记录)、arXiv,做广度检索,把候选文献拉回来。Scribe agent精读摘要和方法,提取核心发现。Signal agent跨论文分析,找研究空白、矛盾和新兴趋势。
️结构阶段 ——Architect agent根据论文类型(学士/硕士/博士/会议)设计完整章节树。Citation Manager从研究材料中抽取并规范化所有引用,建JSON引用库。Formatter套用目标期刊格式和字数目标。
✍️写作阶段 ——6个Crafter agent分别负责引言、文献综述、方法论、结果、讨论、结论。Thread agent负责跨章节一致性,保证论点前后不打架。Narrator agent统一全书语气、人称和时态。
验证阶段 ——Skeptic agent找弱论证和逻辑漏洞。Verifier agent逐条调用外部API核对每条引用——标题、作者、年份、期刊全部对上才算数,对不上的直接丢弃。Referee agent模拟审稿人评分,预测审稿意见。
✨润色阶段 ——Voice/Entropy agent增加句式多样性和自然度。Polish agent修语法和标点。Enhancer agent自动补充专业元素:摘要扩展、研究局限性、未来工作、附录、表格。
导出阶段 ——编译成PDF、DOCX、LaTeX。确定性地把引用占位符替换为格式化文献——这一步零幻觉,因为所有引用在前面已经被验证过了。
学术界对AI写论文格外敏感,核心堵点只有一个: 引用幻觉 。
LLM生成参考文献的能力堪称诡异——格式完美,作者名字真实,期刊名存在,DOI格式正确,但整篇论文是它编的。斯坦福和伯克利的研究指出,ChatGPT的引用幻觉率高达30-50%。
在学术界,一条假引用 = 学术不端。
OpenDraft把这件事做成了硬性门禁。生成阶段LLM可以自由发挥,但每条引用随后必须在CrossRef、OpenAlex、Semantic Scholar或arXiv中逐字段匹配成功,才能进入最终参考文献列表。匹配失败的,直接丢掉,绝不手软。
这比常见的RAG(检索增强生成)更狠。RAG可能在训练数据噪声里把旧引用当成真实结果输出,OpenDraft的做法是"生成和验证彻底分离"——先让LLM写完,再让独立系统去数据库核对。
当前验证率约85-90%,维护者说目标是突破95%。项目里有一份EVALUATION.md,详细记录了幻觉来源率(10-15%)、基准测试计划(20个主题、recall@k、人工标注unsupported claims),态度毫不含糊。
上手尝鲜:10分钟,36页,22条真引用
输入研究主题,选语言(支持中文等57+语言)、引用风格(APA/IEEE等)、目标长度,点Generate。每天免费3次,不用绑卡、不用API Key。
网站展示了31篇公开示例论文,总计超过23.9万字、547条引用。
随便翻几篇看看质量——
- ESG Self-Financing Portfolio Analysis
(硕士):36页,9,352词,14条引用,约6分钟。检验ESG多空策略在扣除交易成本后的alpha表现。
- LLM Quantization for Integer Hardware
(硕士):36页,9,273词,18条引用。比较训练后量化(PTQ)和量化感知训练(QAT)在INT8/INT4下的精度-效率平衡。
- Generative AI in Software Development
(硕士):36页,9,109词,22条引用。访谈30位工程师,提炼出5种AI使用模式,同时讨论代码质量、安全风险和技能退化的担忧。
- Kleinteilelager Optimierung
(本科,德语):20页,5,000词,23条引用。德语仓储物流优化——不仅界面支持多语种,论文正文也用目标语言从零原生撰写,这个能力在目前的AI写作工具里还很罕见。
从ESG金融到LLM量化,从青少年心理健康到德语仓储管理,31篇论文横跨STEM、社会科学和人文。每篇都有清晰的章节结构、一致的学术语气,引用密度达到了正经论文的水准。
既然开源,当然可以本地跑。
配上API key,写一篇论文的成本:
- Gemini Flash
:约$0.35(两块五人民币)
- Claude Opus
:约$3(二十块出头)
支持断点续跑、token消耗追踪、质量gate。还附带一堆独立工具——tldr(5要点学术总结)、digest(用ElevenLabs生成语音播报)、expose模式(快速研究概览,速度是完整生成的3倍)、revise(迭代修订)。
GitHub的Discussion区目前还冷清——项目太新,刚刚被流量发现。但README写得诚恳:OpenDraft只生成草稿,最终论文需要人类审查,也不能被当作作弊工具。维护者显然清楚这件事的边界在哪。
Jeremy的帖子下面,有一条回复格外刺眼。
Hilde Kuehne 转发并写下:
"Please don't…"
三个单词。干净利落。
这条反应指向一个更尖锐的问题:一个能在10分钟内生成36页结构化论文的系统,发出来自学术共同体本能的警觉——当19个agent一拥而上替你搭好框架、填好内容、编好引用、润好措辞,那句"本研究由作者独立完成"的声明还剩多少分量?
OpenDraft的README显然预判了这种质疑,反复声明:它是 "drafting tool, not autonomous author"——只负责草稿,人类仍要承担作者责任。但一个10分钟就能从零吐出36页学术文本的系统,在学术生态里到底会搅起什么波澜,只有时间能回答。
研究队友,别当代笔
OpenDraft的底层逻辑是一场范式切换:
过去,一个研究生从"零"到"有结构的30页草稿",需要数天甚至数周——检索、筛选、精读、组织、搭框架、分章节、写初稿、调格式。现在10分钟。
把启动摩擦力降到几乎为零。研究者可以把精力集中在机器做不了的事上:深入理解核心文献、形成独立判断、设计实验、提炼原创洞见。
它淘汰不了真正的研究者。但那些工作内容就是"拼凑文献综述 + 堆砌格式化引用"的人,确实该想想下一步了。
19个agent已经能完成一个研究生两周的机械工作量。剩下的——批判性思考、原创贡献、学术诚信——仍然是人类的疆域。
至少目前还是。
热门跟贴