图5-19 选择账户
图5-20 完成数据源向导
3.新建数据源视图
在解决方案资源管理器中,单击“数据源视图”,点击新建数据源视图。
如下图5-21
图5-21新建数据源视图
选择“Baskets”对应“关系数据源”,点击下一步,如图5-22
图5-22选择数据源
将“可用对象”中的源表“Baskets”添加到“包含的对象”,如图5-23,图5-24
图5-23 选择表
5-24 完成
完成向导,结果如图5-25所示
图5-25 结果
4.创建挖掘结构
在解决方案资源管理器中,右键点击“挖掘结构”,点击“新建挖掘结构”如图5-26所示
图5-26席间挖掘结构
选择“从现有数据库或数据仓库”,如图5-27
图5-27 定义方法
在选择何种数据挖掘技术选项中选择“Microsoft关联规则”,如图5-28
图5-28 选择挖掘方法
选择“Baskets”数据源视图,如图5-29,图5-30所示
图5-29 选择数据源视图
图5-30 指定表的类型
选择主键为“卡号”,可预测部分为“啤酒”。如下图5-31,图5-32
图5-31 选择主键
图5-32 显示
将挖掘结构名称改为“Baskets”,挖掘模型名称改为“关联规则”,建立挖掘结构并完成向导,如图5-33,图5-34
图5-33 修改挖掘结构和模型结构名称
图5-34 完成向导
4.模型处理
右键新建的挖掘结构,点击“处理”,如图5-35
图5-35 处理
在跳出对话框时选择“是”,如图5-36
图5-36 选择
图5-37 处理成功
如图5-37所示。处理成功,选择“关闭”
5.结果分析
Microsoft SQL2008的关联规则算法有三个面板来展示结果:规则、项集、依赖关系网络
选择“挖掘模型查看器”,查看“关联规则”结果
规则:
图5-38 概率排序
如图5-38所示,此图为概率从高到低的排列的前几项规则,从图中可以看出概率关联性最强的是“软饮料=T”,“甜食=T”则“啤酒=F”为90.3%,而重要性为10.9%
(即喜欢软饮料,喜欢甜食的人不喜欢啤酒的概率为90.3%,在人们购买甜食和软饮料时,不购买啤酒的概率增加)
图5-39 重要性排序
从图5-39所示,可看出重要性关联最强的是“冷冻食品=T”,“罐装蔬菜=T”则“啤酒=T”。为65.3%,而概率则为83.8%(即购买冷冻食品和罐装蔬菜的人购买啤酒的概率的可能性增加)
图5-40规则关联性排序
从上图中看以看出关联性最强的是“鱼类=T”,“鲜肉=F”则“啤酒=F”
概率和重要性分别表示该规律产生的几率和该规律的有用程度。概率越大,表示该关联越容易产生,重要性越高则表示该规则相关性越高
项集:
图5-41项集
图5-41反应的是各个项集的集合个数,大小和关联内容,可以设置最小项集大小和最低支持数等,支持最多的是“鲜肉=F”
依赖网络关系:
图5-42 网络依赖图
如图5-42所示,从此图可看出:除了“冷冻食品=T”,“罐装蔬菜=T”和“啤酒=T”外其他所有项集都单项关联“啤酒=F”,而“冷冻食品=T”和“罐装蔬菜=T”既关联“啤酒=T”又关联“啤酒=F”;“啤酒=T”与“啤酒=F”无关联
图5-43 网络依赖图
从图5-43可以看出,最强关联为“冷冻食品=T”则“啤酒=T”且为单项关联
结论:这个实验是针对某商场各类商与品啤酒关联性做的数据挖掘实验,通俗的说就是人们在选购这些商品的同时会选购啤酒的概率与这个概率的重要性。从上面的结论可以看出:人们在选购灌装蔬菜,罐装肉类等时会有较大概率选择啤酒,而在选择软饮料,甜食等时则有较大可能不选择啤酒。
6 总结
这次设计的主要内容是利用SQL Server 2008对收集到的销售数据进行挖掘,利用关联规则从而得到想到信息和项集之间的联系。针对对此次实验,我首先对得到的数据进行稍微的调整,然后再从网上和相关书籍中寻找和本次设计有关的内容。在此期间,为了对所学知识的确认和验证,用SQL对数据源表格进行多次的练习,也从中发现了很多以前不知道的问题。
这次的设计让我更加深入地了解了商务智能和数据挖掘,也发现了自己在这方面的一些不足。在设计过程中,我遇到了很多问题,但是指导老师给了我极大的帮助和正确的引导,让我减少了许多错误和少走了很多弯路。
这次的设计也让我巩固了原有的知识和学到了新的知识,并且增强了我的实践能力,相信会对我以后的工作和学习有极大的帮助。