一项最新研究给AI辅助编程泼了冷水。Winberg等人2026年1月发表于《Health Economics Review》的论文,首次系统测试了ChatGPT-4.0 Pro在因果推断场景下的代码生成能力——不是简单的数据清洗,而是双重差分(DID)、逆概率加权(IPTW)、断点回归(RD)这类计量经济学核心方法。
研究团队用Scott Cunningham的《因果推断:混音带》作为基准,让AI用Python、R、Stata三种语言分别实现。结果?Python表现最好,但远非完美;R和Stata的问题更明显。关键发现是:AI能写出"看起来对"的代码,却在统计假设和模型细节上频繁出错。
这与早期研究的结论形成反差。此前多数测试聚焦简单任务——自动化脚本、描述统计、代码翻译。Winberg团队的突破在于建立了客观评估标准:不依赖人工判断"像不像",而是直接比对标准答案的输出结果。这种结构化验证暴露出一个核心矛盾:AI生成代码的速度和流畅度,与统计可靠性之间存在明显落差。
对量化研究者而言,这意味着工作流的重新校准。AI适合作为"第一稿生成器"快速搭建框架,但关键参数、稳健性检验、识别假设的验证仍需人工把关。研究没有否定AI的价值,而是划清了边界——在因果推断这类"方法论密集型"任务中,完全自动化仍是风险选项。
一个值得关注的细节:跨语言表现差异显著。Python生态的丰富文档和开源代码可能让AI"学得更多",而Stata这类商业软件的封闭性则放大了幻觉问题。这提示工具选择本身就会影响AI辅助的效果。
研究的隐含追问比结论更重要:当AI能瞬间生成复杂代码,研究者的核心竞争力是否正从"写代码"转向"审代码"?计量训练的价值或许不再体现为语法熟练度,而是对识别策略、模型假设的深层理解——这正是当前AI最容易出错的环节。
热门跟贴