ChatGPT写因果推断代码：实测结果让人意外

野生运营

2026-05-26 01:42 ·北京

一项最新研究给AI辅助编程泼了冷水。Winberg等人2026年1月发表于《Health Economics Review》的论文，首次系统测试了ChatGPT-4.0 Pro在因果推断场景下的代码生成能力——不是简单的数据清洗，而是双重差分（DID）、逆概率加权（IPTW）、断点回归（RD）这类计量经济学核心方法。

研究团队用Scott Cunningham的《因果推断：混音带》作为基准，让AI用Python、R、Stata三种语言分别实现。结果？Python表现最好，但远非完美；R和Stata的问题更明显。关键发现是：AI能写出"看起来对"的代码，却在统计假设和模型细节上频繁出错。

这与早期研究的结论形成反差。此前多数测试聚焦简单任务——自动化脚本、描述统计、代码翻译。Winberg团队的突破在于建立了客观评估标准：不依赖人工判断"像不像"，而是直接比对标准答案的输出结果。这种结构化验证暴露出一个核心矛盾：AI生成代码的速度和流畅度，与统计可靠性之间存在明显落差。

对量化研究者而言，这意味着工作流的重新校准。AI适合作为"第一稿生成器"快速搭建框架，但关键参数、稳健性检验、识别假设的验证仍需人工把关。研究没有否定AI的价值，而是划清了边界——在因果推断这类"方法论密集型"任务中，完全自动化仍是风险选项。

一个值得关注的细节：跨语言表现差异显著。Python生态的丰富文档和开源代码可能让AI"学得更多"，而Stata这类商业软件的封闭性则放大了幻觉问题。这提示工具选择本身就会影响AI辅助的效果。

研究的隐含追问比结论更重要：当AI能瞬间生成复杂代码，研究者的核心竞争力是否正从"写代码"转向"审代码"？计量训练的价值或许不再体现为语法熟练度，而是对识别策略、模型假设的深层理解——这正是当前AI最容易出错的环节。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴