程序员花2小时造了10万条假数据，甲方验收时直说"比真的还真"

爬虫饲养员

2026-04-10 10:06 ·北京

做数据建模最烦的不是代码写崩，是甲方递过来一张Excel，里面只有7行样本。7行，连训练集都凑不齐，项目就得卡在这儿。

有个开发者用numpy和pandas随手搓了个生成器，按客户画像的分布规律批量造数据。年龄、消费频次、地域标签全带合理噪声，不是那种一眼假的123456。甲方拿到10万条测试集，愣是没分出真假，「比我们从系统里导的还干净」。

这事在GitHub上被fork了800多次。有人拿它测风控模型，有人用来填演示系统的窟窿。最损的一个用法是：给领导汇报前先跑一遍，确保PPT里的增长曲线不会露出马脚。

工具本身没门槛，pandas的DataFrame拼接numpy的随机分布，再加几行业务规则校验。难的是你得知道真实数据长什么样——分布偏斜、异常值比例、字段间的勾稽关系，这些才是让假数据"活"起来的细节。

原作者在issue区补了句：「别拿这个去骗投资人，他们现在也会查IP归属地了。」

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴