十九个AI智能体十分钟写完三十六页硕士论文，每条引用真实可查|学术界|学术论文|文献|方法论|硕士

2026年6月28日，大学教授Jeremy Nguyen在X上发了一条帖子。寥寥数语，直接穿透了学术圈和AI圈的交叉地带。

"OpenDraft: 'Claude Code for research papers'. 19 specialized agents doing research in parallel. Open source."

「OpenDraft：论文写作版的Claude Code。19个专业agent并行研究。开源。」

89个赞，23次转发，200次收藏，过万浏览。收藏/点赞比接近2.3:1——典型的"先存下来，回头再看"信号。

Nguyen说的这个东西，叫 OpenDraft 。一个MIT开源许可的Python项目。

怎么用？你输入一个研究主题。10到20分钟后，几十个AI agent协作吐出一篇 30-50条引用、每条都查得到原论文 的完整学术草稿。PDF、Word、LaTeX，全格式直接导出。

出来的是结构完整的论文——IMRaD章节、方法论、讨论、参考文献齐全，一本正经。

19个agent，一个虚拟研究团队

大多数人理解的"AI写论文"是这样的：打开ChatGPT，输入题目，回车。

出来一堆东西，参考文献十个里有八个是编的——作者名字看着眼熟，期刊也对，DOI格式也没毛病，但那篇论文根本不存在。

OpenDraft的做法完全不同。它模拟了一个学术研究团队的完整工作流——19个专业agent分阶段协作，各干各的活，有明确的分工和交接。

整个流水线拆开来看，是6个阶段：

研究阶段 ——Scout agent冲向CrossRef、OpenAlex、Semantic Scholar（2亿+论文记录）、arXiv，做广度检索，把候选文献拉回来。Scribe agent精读摘要和方法，提取核心发现。Signal agent跨论文分析，找研究空白、矛盾和新兴趋势。

️结构阶段 ——Architect agent根据论文类型（学士/硕士/博士/会议）设计完整章节树。Citation Manager从研究材料中抽取并规范化所有引用，建JSON引用库。Formatter套用目标期刊格式和字数目标。

✍️写作阶段 ——6个Crafter agent分别负责引言、文献综述、方法论、结果、讨论、结论。Thread agent负责跨章节一致性，保证论点前后不打架。Narrator agent统一全书语气、人称和时态。

验证阶段 ——Skeptic agent找弱论证和逻辑漏洞。Verifier agent逐条调用外部API核对每条引用——标题、作者、年份、期刊全部对上才算数，对不上的直接丢弃。Referee agent模拟审稿人评分，预测审稿意见。

✨润色阶段 ——Voice/Entropy agent增加句式多样性和自然度。Polish agent修语法和标点。Enhancer agent自动补充专业元素：摘要扩展、研究局限性、未来工作、附录、表格。

导出阶段 ——编译成PDF、DOCX、LaTeX。确定性地把引用占位符替换为格式化文献——这一步零幻觉，因为所有引用在前面已经被验证过了。

学术界对AI写论文格外敏感，核心堵点只有一个： 引用幻觉 。

LLM生成参考文献的能力堪称诡异——格式完美，作者名字真实，期刊名存在，DOI格式正确，但整篇论文是它编的。斯坦福和伯克利的研究指出，ChatGPT的引用幻觉率高达30-50%。

在学术界，一条假引用 = 学术不端。

OpenDraft把这件事做成了硬性门禁。生成阶段LLM可以自由发挥，但每条引用随后必须在CrossRef、OpenAlex、Semantic Scholar或arXiv中逐字段匹配成功，才能进入最终参考文献列表。匹配失败的，直接丢掉，绝不手软。

这比常见的RAG（检索增强生成）更狠。RAG可能在训练数据噪声里把旧引用当成真实结果输出，OpenDraft的做法是"生成和验证彻底分离"——先让LLM写完，再让独立系统去数据库核对。

当前验证率约85-90%，维护者说目标是突破95%。项目里有一份EVALUATION.md，详细记录了幻觉来源率（10-15%）、基准测试计划（20个主题、recall@k、人工标注unsupported claims），态度毫不含糊。

上手尝鲜：10分钟，36页，22条真引用

输入研究主题，选语言（支持中文等57+语言）、引用风格（APA/IEEE等）、目标长度，点Generate。每天免费3次，不用绑卡、不用API Key。

网站展示了31篇公开示例论文，总计超过23.9万字、547条引用。

随便翻几篇看看质量——

ESG Self-Financing Portfolio Analysis
（硕士）：36页，9,352词，14条引用，约6分钟。检验ESG多空策略在扣除交易成本后的alpha表现。
LLM Quantization for Integer Hardware
（硕士）：36页，9,273词，18条引用。比较训练后量化（PTQ）和量化感知训练（QAT）在INT8/INT4下的精度-效率平衡。
Generative AI in Software Development
（硕士）：36页，9,109词，22条引用。访谈30位工程师，提炼出5种AI使用模式，同时讨论代码质量、安全风险和技能退化的担忧。
Kleinteilelager Optimierung
（本科，德语）：20页，5,000词，23条引用。德语仓储物流优化——不仅界面支持多语种，论文正文也用目标语言从零原生撰写，这个能力在目前的AI写作工具里还很罕见。