3组实验打脸：LLM把经典机器学习按在地上摩擦？

字节漫游指南

2026-04-12 10:37 ·北京

IRIS数据集跑了47年，准确率天花板卡在96%。有人用GPT-4o重新测了一遍，结果让教科书集体沉默。

这不是学术圈的自嗨。2024年，每个做数据产品的团队都在问同一个问题：传统机器学习模型（机器学习模型）还有必要留着吗？

实验设计：用新锤子敲老钉子

实验设计：用新锤子敲老钉子

测试者选了机器学习入门第一课的数据集——IRIS鸢尾花分类。150条样本，4个特征，3个类别，从1988年到现在被引用超过10万次。

对照组是两颗"活化石"：CART决策树（1984年诞生）和逻辑回归（1958年诞生）。实验组是GPT-4o，用零样本提示词直接分类。

公平性上做了手脚：传统模型用80%数据训练，LLM（大语言模型）零样本直接上，不给任何示例。相当于让老拳手热身完再打，新选手裸考进场。

结果：GPT-4o准确率97.3%，CART 93.3%，逻辑 regression 96.0%。

零样本的LLM，打败了用80%数据喂饱的经典模型。

成本账：省下的不只是显卡

成本账：省下的不只是显卡

传统团队做分类任务，标准流程是：特征工程→调参→交叉验证→部署→监控漂移。一个熟练工程师折腾两天算快的。

LLM路线：写一段提示词，调API，收工。测试者把整个流程压缩到47行Python代码。

但别急着欢呼。GPT-4o处理150条样本的API成本约0.12美元，按百万级数据量换算，账单能买辆特斯拉。逻辑回归在笔记本上跑完，电费不够买杯咖啡。

「这不是取代，是 trade-off 的重新定义。」测试者在笔记里写。精度换成本，还是成本换速度，取决于你的数据规模。

IRIS之外的战场

IRIS之外的战场

鸢尾花数据集有个致命优点：特征干净、类别均衡、噪声极低。真实业务数据长什么样？文本混着错别字，标签由5个外包团队标注，特征里有30%缺失值。

测试者补了一组对抗实验：往IRIS里注入10%标签噪声。CART准确率跌到71%，逻辑 regression 76%，GPT-4o仍保持89%。

LLM的鲁棒性来自预训练阶段见过的脏数据——互联网级别的脏。传统模型没这个福气，它们只认识你喂的那口饭。

但另一组实验泼了冷水。把特征名改成无意义的字母（A、B、C、D），GPT-4o准确率暴跌至34%。CART和逻辑 regression 纹丝不动，它们本来就不识字。

LLM强在理解，弱在盲算。传统模型是瞎子，但瞎得稳定。

产品经理的决策树

产品经理的决策树

测试者最后给了一张对照表，我摘了能直接用的部分：

数据量<1万条、特征可解释性要求高、预算卡死——用逻辑 regression。金融风控、医疗诊断、监管报送场景，模型必须能说人话。

数据量1-10万条、有文本特征、迭代速度优先——试试LLM。客服分类、内容审核、用户意图识别，这些活儿LLM已经接过去了。

数据量>10万条、实时推理、成本敏感——传统模型+特征工程仍是正解。推荐系统、广告CTR、量化交易，毫秒级延迟面前，API调用是奢侈品。

「最蠢的决定是二选一。」测试者说。他见过把BERT（基于变换器的双向编码器表示）和XGBoost（极端梯度提升）串起来用的团队，LLM打标生成训练数据，传统模型做线上 serving，各取所长。

IRIS数据集明年就满50岁了。它见证了从打孔卡片到云计算的完整周期，现在正看着LLM接过接力棒。但有趣的是，测试者发现2024年新出版的机器学习教材，IRIS章节一点没删——只是课后习题加了一道：「用GPT-4复现本章结果，对比分析优劣。」

你的团队去年训练的传统模型，今年还在跑吗？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴