IRIS数据集跑了47年,准确率天花板卡在96%。有人用GPT-4o重新测了一遍,结果让教科书集体沉默。

这不是学术圈的自嗨。2024年,每个做数据产品的团队都在问同一个问题:传统机器学习模型(机器学习模型)还有必要留着吗?

实验设计:用新锤子敲老钉子

实验设计:用新锤子敲老钉子

测试者选了机器学习入门第一课的数据集——IRIS鸢尾花分类。150条样本,4个特征,3个类别,从1988年到现在被引用超过10万次。

对照组是两颗"活化石":CART决策树(1984年诞生)和逻辑回归(1958年诞生)。实验组是GPT-4o,用零样本提示词直接分类。

公平性上做了手脚:传统模型用80%数据训练,LLM(大语言模型)零样本直接上,不给任何示例。相当于让老拳手热身完再打,新选手裸考进场。

结果:GPT-4o准确率97.3%,CART 93.3%,逻辑 regression 96.0%。

零样本的LLM,打败了用80%数据喂饱的经典模型。

成本账:省下的不只是显卡

成本账:省下的不只是显卡

传统团队做分类任务,标准流程是:特征工程→调参→交叉验证→部署→监控漂移。一个熟练工程师折腾两天算快的。

LLM路线:写一段提示词,调API,收工。测试者把整个流程压缩到47行Python代码。

但别急着欢呼。GPT-4o处理150条样本的API成本约0.12美元,按百万级数据量换算,账单能买辆特斯拉。逻辑回归在笔记本上跑完,电费不够买杯咖啡。

「这不是取代,是 trade-off 的重新定义。」测试者在笔记里写。精度换成本,还是成本换速度,取决于你的数据规模。

IRIS之外的战场

IRIS之外的战场

鸢尾花数据集有个致命优点:特征干净、类别均衡、噪声极低。真实业务数据长什么样?文本混着错别字,标签由5个外包团队标注,特征里有30%缺失值。

测试者补了一组对抗实验:往IRIS里注入10%标签噪声。CART准确率跌到71%,逻辑 regression 76%,GPT-4o仍保持89%。

LLM的鲁棒性来自预训练阶段见过的脏数据——互联网级别的脏。传统模型没这个福气,它们只认识你喂的那口饭。

但另一组实验泼了冷水。把特征名改成无意义的字母(A、B、C、D),GPT-4o准确率暴跌至34%。CART和逻辑 regression 纹丝不动,它们本来就不识字。

LLM强在理解,弱在盲算。传统模型是瞎子,但瞎得稳定。

产品经理的决策树

产品经理的决策树

测试者最后给了一张对照表,我摘了能直接用的部分:

数据量<1万条、特征可解释性要求高、预算卡死——用逻辑 regression。金融风控、医疗诊断、监管报送场景,模型必须能说人话。

数据量1-10万条、有文本特征、迭代速度优先——试试LLM。客服分类、内容审核、用户意图识别,这些活儿LLM已经接过去了。

数据量>10万条、实时推理、成本敏感——传统模型+特征工程仍是正解。推荐系统、广告CTR、量化交易,毫秒级延迟面前,API调用是奢侈品。

「最蠢的决定是二选一。」测试者说。他见过把BERT(基于变换器的双向编码器表示)和XGBoost(极端梯度提升)串起来用的团队,LLM打标生成训练数据,传统模型做线上 serving,各取所长。

IRIS数据集明年就满50岁了。它见证了从打孔卡片到云计算的完整周期,现在正看着LLM接过接力棒。但有趣的是,测试者发现2024年新出版的机器学习教材,IRIS章节一点没删——只是课后习题加了一道:「用GPT-4复现本章结果,对比分析优劣。」

你的团队去年训练的传统模型,今年还在跑吗?