全文链接:http://tecdat.cn/?p=32118
假如你有一个购物类的网站,那么你如何给你的客户来推荐产品呢?(点击文末“阅读原文”获取完整文档、数据)
相关视频
这个功能在很多电商类网站都有,那么,通过SQL Server Analysis Services的数据挖掘功能,你也可以轻松的来构建类似的功能。
将分为三个部分来演示如何实现这个功能。
此篇文章演示了如何帮助客户使用SQL Server Analysis Services基于此问题来构建简单的挖掘模型。
步骤
准备工作:数据.xls 数据导入数据库中。
![](http://dingyue.ws.126.net/2023/0416/d17cea5bj00rt6zda0009d2004z0055g004z0055.jpg)
![](http://dingyue.ws.126.net/2023/0416/afbe0e65j00rt6zdb001cd200fe00e8g00fe00e8.jpg)
在相应数据库中找到对应的数据
![](http://dingyue.ws.126.net/2023/0416/70f03e37j00rt6zdc003id200fe008qg00fe008q.jpg)
(1) 打开visual studio,新建项目,选择商业智能项目,analysis services项目
![](http://dingyue.ws.126.net/2023/0416/7920069dj00rt6zdd001fd200fe0060g00fe0060.jpg)
将data-mining数据库中的数据导入数据源
![](http://dingyue.ws.126.net/2023/0416/1c358836j00rt6zdd002id200fe00e0g00fe00e0.jpg)
![](http://dingyue.ws.126.net/2023/0416/591bfbc1j00rt6zde0025d200fe008hg00fe008h.jpg)
在可用对象中,将要分析数据所在表添加到包含的对象中,继续下一步。
在解决方案资源管理器中,右键单击挖掘结构,选择新建挖掘结构。
![](http://dingyue.ws.126.net/2023/0416/210462c6p00rt6zdf0024d200fe0042g00fe0042.png)
选择microsoft 决策树,继续下一步
![](http://dingyue.ws.126.net/2023/0416/51eb6799j00rt6zdf003dd200fe00e0g00fe00e0.jpg)
设置测试集和训练集
![](http://dingyue.ws.126.net/2023/0416/1af3fcc6j00rt6zdg004cd200fe00e0g00fe00e0.jpg)
勾选允许钻取,完成。
然后对模型进行部署,继而进行挖掘(点击运行)
决策树模型
以下我们对电商购物网站的用户的信誉等级进行预测,使用其他用户的特征属性对其进行预测分类。建立如下的决策树模型。
![](http://dingyue.ws.126.net/2023/0416/cb4abd28j00rt6zdh0015d200ci00b3g00ci00b3.jpg)
从决策树模型的结果来看,
![](http://dingyue.ws.126.net/2023/0416/0abb2388j00rt6zdh002ad200u0006dg00it003z.jpg)
树一共有5个分支。其中重要节点分别为购物积分、家里人口数、居住面积、居住面积等。
点击标题查阅往期内容
![](http://dingyue.ws.126.net/2023/0416/92d4fd38j00rt6zdj00ddd200oz00e2g007t004e.jpg)
01
![](http://dingyue.ws.126.net/2023/0416/d399c343j00rt6zdk000xd200fh00fig00fh00fi.jpg)
02
![](http://dingyue.ws.126.net/2023/0416/4a4259dcj00rt6zdk000xd200d400g1g00d400g1.jpg)
03
![](http://dingyue.ws.126.net/2023/0416/927d5c0aj00rt6zdm0052d200u000gvg00hh009t.jpg)
04
![](http://dingyue.ws.126.net/2023/0416/4ad92765j00rt6zdn007sd200nz00djg00hh009u.jpg)
从图中可以看到购物积分越高的用户,决策树得到的用户信誉等级越高。同时家里人口数越多,则信誉等级也越高。说明购物积分直接影响着信誉等级。一般购物次数越多则买家的信誉越高。同时家里人口数越多,则该用户在网上购物的开支越多。因此会导致网上购物越多,最后导致信誉增加。
![](http://dingyue.ws.126.net/2023/0416/b3ae317bj00rt6zdo000ud200dp0081g00dp0081.jpg)
然后可以看到依赖网络。依赖网络图是指预测变量和其他变量直接的依赖性。从图中可以看到在用户属性中,几个属性会影响信用等级,包括购物积分、次数、居住面积以及人口数量。
![](http://dingyue.ws.126.net/2023/0416/44fea6acj00rt6zdo003rd200fe00e0g00fe00e0.jpg)
聚类
从聚类结果可以看到,聚类将所有用户分成了10个信用级别。
![](http://dingyue.ws.126.net/2023/0416/f0e2a001j00rt6zdq001od200fe006dg00fe006d.jpg)
从不同类别的依赖图可以看到,类别10、4、8、5之间具有较强的相关关系。说明这几个类别中的信用级别是类似的。下面可以具体看下每个类别中的各个属性的分布的比例。
![](http://dingyue.ws.126.net/2023/0416/a96fca69j00rt6zdr001ad200fe0070g00fe0070.jpg)
![](http://dingyue.ws.126.net/2023/0416/7505a5d4j00rt6zds001fd200fe0076g00fe0076.jpg)
从上图可以看到不同类别的购物积分是不同的。
总的来看,相对来说,第4和7类别的购物积分最小的,其他几个类别中积分较高,因此可以认为这些类别中的用户的信用级别较高。同时可以看到这些类别的其他信息,这类用户的月收入较低,购物次数也较小。同时可以看到,这类用户大多的交易成功也较少。另一方面,可以看到低购物积分用户中 ,家庭人口数也较小。
![](http://dingyue.ws.126.net/2023/0416/9c5b6e57j00rt6zds000od200fe0046g00fe0046.jpg)
从每个类别的倾向程度来看,购物总次数多的用户交易成功次数也高。从另一方面来看,月收入较高的用户,倾向于是非分类1的用户,也就是它们的信用等级较好。同时可以看到,户交易成功次数多喝购物积分高的用户倾向于非分类1的用户。说明用户的信用等级相对较高。另一方面,可以看到拥有房屋的用户的交易成功次数 电商网站购物次数反而低于没有房屋的用户,可能是因为没有房屋的用户年龄段较低,因此更倾向于网络购物。
然后建立关联规则挖掘模型
运行关联规则,得到以下重要的关联规则
![](http://dingyue.ws.126.net/2023/0416/36145ef8j00rt6zdt001td200fe0052g00fe0052.jpg)
关联规则就是发现数据集中相互有关联的项目。它已经成为数据挖掘领域中具有重要影响的一种算法。也是数据挖掘领域的一个重要分支。最近几年已经被广泛的应用。在电子商务领域,关联规则技术主要用于物品链接页面等的推荐,它只需要购物记录的数据即可,而不需要过多的商品信息,通过关联规则可以发现用户的一些常见的购物模式和购物规律。找出用户通常会一起购买的商品。从而对用户进行推荐和挖掘。
本文中分析的数据和完整文档会员群,扫描下面二维码即可加群!
![](http://dingyue.ws.126.net/2023/0416/f72d19f5j00rt6zdw00fbd200u000gug0081004i.jpg)
获取全文完整数据资料。
本文选自《SQL SERVER ANALYSIS SERVICES决策树、聚类、关联规则挖掘分析电商购物网站的用户行为数据》。
点击标题查阅往期内容
热门跟贴