打开网易新闻 查看精彩图片
做数据建模最烦的不是代码写崩,是甲方递过来一张Excel,里面只有7行样本。7行,连训练集都凑不齐,项目就得卡在这儿。
有个开发者用numpy和pandas随手搓了个生成器,按客户画像的分布规律批量造数据。年龄、消费频次、地域标签全带合理噪声,不是那种一眼假的123456。甲方拿到10万条测试集,愣是没分出真假,「比我们从系统里导的还干净」。
这事在GitHub上被fork了800多次。有人拿它测风控模型,有人用来填演示系统的窟窿。最损的一个用法是:给领导汇报前先跑一遍,确保PPT里的增长曲线不会露出马脚。
工具本身没门槛,pandas的DataFrame拼接numpy的随机分布,再加几行业务规则校验。难的是你得知道真实数据长什么样——分布偏斜、异常值比例、字段间的勾稽关系,这些才是让假数据"活"起来的细节。
原作者在issue区补了句:「别拿这个去骗投资人,他们现在也会查IP归属地了。」
热门跟贴