最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

em 教程

来源:动视网 责编:小OO 时间:2025-10-01 02:09:06
文档

em 教程

SAS8.2EnterpriseMiner数据挖掘实例1.SAS8.2EnterpriseMiner简介数据挖掘就是对观测到的庞大数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。[1]一个数据挖掘工程需要足够的软件来完成分析工作,为了计划、实现和成功建立一个数据挖掘工程,需要一个集成了所有分析阶段的软件解决方案,包括从数据抽样到分析和建模,最后公布结果信息。大部分专业统计数据分析软件只实现特定的数据挖掘技术,而SAS8.2EnterpriseMine
推荐度:
导读SAS8.2EnterpriseMiner数据挖掘实例1.SAS8.2EnterpriseMiner简介数据挖掘就是对观测到的庞大数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。[1]一个数据挖掘工程需要足够的软件来完成分析工作,为了计划、实现和成功建立一个数据挖掘工程,需要一个集成了所有分析阶段的软件解决方案,包括从数据抽样到分析和建模,最后公布结果信息。大部分专业统计数据分析软件只实现特定的数据挖掘技术,而SAS8.2EnterpriseMine
SAS 8.2 Enterprise Miner数据挖掘实例

1.SAS 8.2 Enterprise Miner简介 

数据挖掘就是对观测到的庞大数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。[1]

一个数据挖掘工程需要足够的软件来完成分析工作,为了计划、实现和成功建立一个数据挖掘工程,需要一个集成了所有分析阶段的软件解决方案,包括从数据抽样到分析和建模,最后公布结果信息。大部分专业统计数据分析软件只实现特定的数据挖掘技术,而SAS 8.2 Enterprise Miner是一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件。SAS 8.2 Enterprise Miner把统计分析系统和图形用户界面(GUI)集成在一起,并与SAS协会定义的数据挖掘方法——SEMMA方法,即抽样(Sample)、探索(Explore)、修改(Modify)建模(Model)、评价(Assess)紧密结合,对用户友好、直观、灵活、适用方便,使对统计学无经验的用户也可以理解和使用。 

Enterprise Miner简称EM,它的运行方式是通过在一个工作空间(workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程(workflow),便可以得到相应的结果。

2.EM工具具体使用说明 

EM中工具分为七类:

⏹Sample类    包含Input Data Source、Sampling、Data Partition

⏹Explore类   包含Distribution Explorer、Multiplot、Insight、  

Association、Variable Selection、Link Analysis

(Exp.)

⏹Modify类    包含Data Set Attribute、Transform Variable、Filter 

Outliers、Replacement、Clustering、SOM/Kohonen、

Time Series(Exp.)

⏹Medel类     包括Regression、Tree、Neural Network、

Princomp/Dmneural、User Defined Model、Ensemble、

Memory-Based Reasoning、Two Stage Model

⏹Assess类     包括Assessment、Reporter

⏹Scoring类    包括Score、C*Score

⏹Utility类    包括Group Processing、Data Mining Database、SAS 

Code、Control point、Subdiagram

    每个节点的具体使用方法可以在EM打开界面,选择SAS主菜单中帮助子菜单中的“EM参考资料”选项,进一步查看各个节点的具体使用方法。

下面我们将以客户商品信息为例来建立如下的工作流程,从而引导我们学会使用EM(Enterprise Miner)。

3.定义商业问题

假设有一家目录服务公司每个月都要向发出一份服饰用品和家用器皿的商品目录。为了更好的面对商品战,公司打算发出一张主要宣传厨房用品(dining),包括厨具(kitchenware)、器皿(dishes)和餐具(flatware)的目录。由于对所有的客户发送目录的成本是公司无法承受的,所以公司需要把目标锁定在那些有购买倾向的客户。我们可以通过EM来建立一个倾向模型来完成这个任务,从而得到一个邮寄对象列表。

要完成这个任务我们需要准备好关于客户购买产品记录的数据库表,表中应该包含近两年内客户是否购买了厨具(kitchenware)、器皿(dishes)和餐具(flatware)的数据,以及其他与客户购买倾向相关的变量。我们这里根据客户购买的历史数据建立起来了数据集(数据库表)CUSTDET1,它包含了49个变量。 

上表中的Total Dining (kitch+dish+flat)变量是我们新建的变量,它的值等于Kitchen Product、Dishes Purchase和Flatware Purchase三个变量的值的和,这个变量可以用来预示客户购买厨房用品(dining)的倾向,同时也是建模的基础。

当建立好这个数据集以后,相当于我们已经为我们的挖掘准备好了数据源,接下来我们就可以在EM的工作空间(workspace)里建立我们的挖掘工作流程(workflow)了。

4.创建一个工程

4.1调用EM

启动SAS系统后,有两种方式调用EM,一种是通过菜单调用,一种是通过在命令窗口输入命令调用。

⏹菜单方式

在SAS系统主菜单中选择“解决方案—〉分析—〉企业数据挖掘”

⏹命令方式 

在SAS命令窗口输入miner后按回车。

4.2新建一个工程    

     在EM窗口打开后,建立一个新数据挖掘工程的步骤如下:

(1)在SAS主菜单中选择“文件—〉新建—〉项目”,会出现建立新项目的对话框,在Create new project窗口中的Name域输入Dining List。

(2) 单击Create按钮后,Dining List工程名将显示在EM窗口的左侧,下面是默认的工作流的名称Untitled,单击Untitled输入新的工作流名称Propensity,如下图所示,则一个名为Propensity的工作流程就建立起来了。

4.3应用工作空间中的节点

EM中的挖掘程序需要通过设置相应的节点的方式实现,节点是EM的一个重要组成部分,在EM中的挖掘任务都是通过拖拽、右单击、双击节点等操作实现的。

在图3中单击左下方的tools标签,所有可以使用的带名称的节点分组列表显示。

部分工具也可以通过EM窗口顶部的菜单栏来选择,将鼠标在相应的节点上停留1-2秒钟可以显示节点的名称。

5.数据挖掘工作流程

EM工作流程主要包括六个环节:定义数据源(Input Data Source)、探索数据(Explore data)、为建模准备数据(Prepare data for modeling)、建立模型(Build model)、评价模型(Evaluate model)和应用模型(Apply model),每个环节可能由一个或多个节点来完成。

5.1定义数据源

EM定义数据源的工具是Input Data Source节点,利用Input Data Source节点引入一个数据源的过程如下:

(1)在名为Input Data Source的节点上按住鼠标左键,将其拖拽到EM窗口右侧的空白工作区中释放,则工作区中会出现一个新的Input Data Source节点。双击该节点会出现Input Data Source窗口

(2)单击select按钮,会出现SAS Data Set窗口,其中SASUSER为默认数据集库。tables下面是SASUSER库中所有可以选择的数据集,这里我们选择CUSTDET1作为我们的数据源。

(3)选择CUSTDET1后单击OK按钮可以返回到Input Data Source窗口

可以看到当选择完数据源以后,EM会自动创建节点输出数据和元数据样本。元数据样本的默认容量(size)是2000,当数据源的记录小于2000时,元数据容量会等于数据源的大小。 如果需要改动元数据样本大小可以通过单击change按钮实现。

(4)选择完数据源后关闭Input Data Source会弹出对话框,

(5)单击“是”按钮保存修改返回到EM工作区,EM会自动将Input Data Source节点名称改为所选数据集的名称。

5.2探索数据

数据源中的缺失值、边界值、不规则分布都可能会影响到挖掘得建模甚至歪曲挖掘得结果。所以,清楚的了解数据源的内容和结构对于建立一个数据挖掘项目来说是非常重要的。

5.2.1设置Insight节点

EM实现探索数据的步骤如下:

(1)将Insight节点拖拽到工作区中方在名为SASUSER.CUSTDET1的Input Data Source节点下方。

(2)连接Input Data Source节点和Insight节点:

A.单击空白工作区

B.将鼠标箭头移动到Input Data Source 节点边缘,使鼠标箭头变为十字形状

C.按住鼠标左键滑动到Insight节点后释放,单击空白工作

D.出现从Input Data Source到Insight的一个箭头

(3)双击Insight节点,出现Insight Settings窗口

由于不同的数据源的数据量可能不同,而且有些数据源的数据量可能是非常巨大的,所以Insight节点默认抽取2000条数据记录来探索数据源,当数据源的记录数小于2000时,可以选择Insight Based On设置中的Entire data set来改变探索数据的样本数量。

(4)单击Entire data set后关闭Insight Settings窗口,在弹出对话框中单击“是”保存设置

5.2.2察看Insight节点输出结果

   当设置完Insight节点之后,通过运行该节点可以查看探索数据的结果,其过程如下:

(1)右单击Insight节点,在弹出菜单中选择Run运行该节点,运行过程中节点的四周会变成绿色,运行完毕会有运行结果的提示对话框

(2)单击“是”可以察看运行结果。Insight运行结果将数据源以二维表视图的形式显示

(3)单击SAS主菜单中的“分析”,选择下拉菜单中的“分布”,将弹出选择察看分布的变量的窗口

(4)单击第一个变量PURCHASE后将滚动条拖到最后一个变量,按住Shift键单击最后一个变量SEX,当所有的变量都被选择上后单击“Y”按钮,然后确定,会出现所有变量的分布窗口。其中包括每个变量的分布图和一些重要的统计变量以及一组分位数。

在这个例子中我们重点要看的是DINING的分布。可以看到DINING的值从0到28,0值居多。那么我们要建立预测客户购买Dining产品倾向的模型,应该把目标锁定在目标变量Dining的值大于0的客户身上。

(5)数据探索完毕,关闭分布窗口和EMDATA.VIEW_QMY窗口返回到EM工作区。 

5.3准备建模数据

此例将准备建模数据阶段分成了四个环节:建立目标变量、设置目标变量、数据分割和替换缺失值。

5.3.1建立目标变量

前面已经分析了我们的目标人群是Dining变量大于0的客户群,但是对于目前数据集SASUSER.CUSDET1中的Dining变量的值是从0到28的一个分布,而我们只关心Dining值大于或者小于0,所以这里要对Dining变量作个转换,让大于0的Dining值为1。

EM中用来建立变量的工具是Transform Variables节点,步骤如下:

(1)将Transform Variables节点拖拽到工作区中Input Data Source节点的右侧连接Input Data Source节点到Transform Variables节点

(2)双击Transform Variables节点,出现Transform variables窗口

(3)单击工作区上方工具栏中的Create variable图标  ,出现Create Variable窗口

(4)在Name区域输入Dinebin,在Label区域输入Dining No/Yes

(5)单击Define,出现Customize窗口

(6)在DINEBIN(N)=formula域中输入“dining〉0”

(7)单击OK按钮,关闭Transform Variable窗口,选择“是”保存修改,则DINEBIN即为我们建立好的目标变量。

5.3.2设置目标变量

EM实现对目标变量的设置使用的工具是Data Set Attributes节点

(1)将Data Set Attributes节点拖放到Transform Variable节点右侧

(2)连接Transform Variable节点到Data Set Attributes节点

(3)双击Data Set Attributes节点,出现Data Set Attributes窗口

(4)单击Variables标签

(5)找到DINEBIN变量,右单击DINEBIN变量的New Model Role属性(input值),选择弹出菜单中的Set New Model Role,选择target,则原来的input值变为target值

在这个建立和设置目标变量的过程中隐藏着一个问题。DINEBIN的值是建立在DINING的基础上的,而DINGING的值又是建立在另外三个变量KITCHEN, DISHES和 FLATWARE的基础上的,这将导致目标变量与这四个预测变量之间的完全线性相关。这样就产生了一个逻辑循环,即输入导出的预测值是我们已知的,也就是说这种输入的结果是我们通过已知变量就可以知道的,而失去了预测的意义。所以,在我们建立预测模型时必须将形成目标变量的四个变量排除在外。

(6)在Data Set Attributes窗口中分别找到KITCHEN、DISHES、FLATWARE 和DINING变量,右键单击变量的New Model Role属性值,在弹出菜单中选择Set New Model Role,选择rejected,即将KITCHEN、DISHES、FLATWARE 和DINING的New Model Role属性值改为rejected。

EM建立预测模型要求确定变量的数据类型。EM能够识别的数据类型有五种:unary——只有唯一值型、binary——只有两个值型、nominal——两个以上的无序非数字值型、 ordinal——多于两种情况的小于10的数值型和interval——大于10 的数值型,例如:

(7)在Data Set Attributes窗口,右键单击DINEBIN变量的New Measurement属性值,在弹出菜单中选择Set New Measurement,选择binary,则DINEBIN变量的New Measurement属性值被改为binary

    

    在我们建模的时候,EM会默认目标事件为目标变量排序的第一个值,默认排序方法为升序。我们这里的目标变量DINEBIN只有0和1值,1值代表对厨房用品的购买。所以这里需要将目标变量按降序排列来锁定那些有购买倾向的客户群。

(8)在Data Set Attributes窗口,单击Class Variables标签,找到DINEBIN变量,右键单击变量的New Order属性值,选择Set New Order,选择Descending

当设置好目标变量的元数据特征(包括数据类型,排序等)后,下一步我们要对目标变量的商业属性进行设置。由于我们对目标变量的预测值将涉及到我们的商业决策,而任何商业决策都要承担一定的成本。建立数据挖掘预测模型,明确预测模型的隐含成本是非常重要的,因为错误的预测结果与真实结果巧合相同的概率太小了,我们更不应该存有这种侥幸心理。

在本例中,生产、印刷和邮寄一份宣传单的成本为$10;

每份宣传单的收入为$90;

这样的话,我们的预测将涉及到如下的产出:

   正确的预测:发出目录,客户购买,平均利润为$80(90-10);

   错误的预测:发出目录,客户没有购买,固定成本为$10;

任何模型的建立都必须考虑到正确的预测和错误的猜测所带来的不同结果,在应用一个预测模型之前,必须明确商业问题的成本结构及其对建模的含义。 

EM提供了一种直接定义“收入—成本”矩阵的方法

(9)单击Data Set Attributes窗口的Variables标签,找到DINEBIN变量,右键单击变量所在行的New Model Role属性,在弹出菜单中选择Edit target profile,出现如下对话框, 

选择“是”,将出现Target Profiles for DINEBIN窗口

    其中,Profiles标签下面列出了每一个目标变量描述文件的简单描述和激活状态,当前的激活文件将在该文件前面的Use属性框中打“*”,当前只有一个默认的激活文件,名为Profile。

(10)单击Target标签,可以查看目标事件的定义,单击levels可以查看不同事件的分布

(11)单击Assessment Information标签,出现默认的决策矩阵

(12)在左边对话框的空白区域的单击鼠标右键,选择Add,出现新增的名为Profit matrix的新矩阵;单击该Profit matrix,在右侧的Name域输入Dining matrix,替换Profit matrix。

(13)单击Edit Decisions按钮,出现Editing Decisions and Utilities窗口

(14)选择Maximize profit with costs,将Decision为1的Cost值改为10;其他内容不变。关闭窗口,选择“是”保存修改。

此处修改Editing Decisions and Utilities的含义为:当DINEBIN值为1的时候,我们会发出邮件,那么我们的固定成本为$10;而当DINEBIN为0时,我们不发出邮件,那么成本为0。

当设置好成本矩阵后,我们接下来要做的是确定期望收入

在Target Profiles for DINEBIN窗口中,Name域下面的LEVEL矩阵中,行属性1代表有购买行为,0代表没有购买;列属性1代表有目录发出,0代表没有目录发出。所以,对于本例,LEVEL都为1时,表示有目录发出同时客户购买,那么按照前面我们分析过的目标变量的商业属性,此时将有$90的期望收入;当LEVEL的值都为0以及LEVEL行为0,列为1时,没有购买行为,所以将产生0收入;而LEVEL行为1,列为0时,表示没有订单发出却产生购买,这显然是个不合理的结论,所以保持它的值。

(15)将LEVEL都为1的矩阵框填入90,将LEVEL都为0的矩阵框中填入0,其他值保持0不变。

(16)右键单击Target Profit matrix列表中的Profit matrix,选择Set to use,在Profit matrix的前面将出现“*”

在Target Profiles for DINEBIN窗口中可能涉及到的最后一个设置是Prior标签。对于商业建模来说,我们要挖掘的数据量可能是非常巨大的,可能会涉及到抽样的过程,我们这里使用的CUSTDET1本身是对原有数据集的随机抽样,这种随机抽样可能会导致目标变量分布的改变。例如在本例中,总体数据中的目标变量占12%,而通过抽样得到的CUSDET1中,TARGET所占百分比达到了54%,这种抽样保留了更多的TARGET事件,被称作Over Sampling。Over Sampling对于Training Data有足够的数据来建模是有必要的,但是对于测试数据,则需要在EM中指出原有数据的TARGET的真实分布。解决这个问题我们是通过设置Prior标签来实现的。

(17)在Target Profiles for DINEBIN窗口中,单击Prior标签,在左边窗口空白处单击鼠标右键,选择Add,会出现新增加的Prior vector选项。

(18)单击Prior vector,分别将右侧的Target Value为1和0的Prior Probability的值改为0.12和0.88,将Name改为Prior Dining后按回车,则新增加的Prior vector将变为Prior Dining

(19)右键单击Prior vector,选择Set to use,则Prior vector前面会打上“*”

(20)关闭Target Profiles 窗口,关闭Data Set Attributes窗口,分别在弹出对话框中选择“是”保存修改。

到此为止,目标变量的设置就全部结束了。

5.3.3数据分割

EM实现数据分割的工具是Data Partition

(1)将Data Partition节点拖到工作区中,放到Data Set Attribute的右边,连接Data Set Attribute节点到Data Partition节点;

(2)双击Data Partition节点,窗口中默认出现Partition标签,将标签中的设置修改如下:

    其中,Method表示选择划分训练数据、检验数据和测试数据的方法,此处选择随机抽取数据,Percentages表示分割后的不同角色数据集所占的比例,对于Random Seed,可以通过单击Generate New Seed按钮来改变产生种子的方式。

(3)关闭窗口,保存修改,完成数据分割。

5.3.4替换缺失值

由于EM中的很多建模工具,包括回归模型和神经网路模型在建模的过程中会忽略含有缺失值的记录,这样会缩减训练数据集参与预测建模的数据量,如图

所以,在使用回归和神经网络模型工具之前必须对缺失值进行处理。EM处理缺失值的工具是Replacement节点

(1)将Replacement节点拖到工作区中,放在Data Partition节点右侧,连接Data Partition节点到Replacement节点

(2)双击Replacement节点,出现Replacement窗口,默认出现的是Defaults和General标签

EM在运行Replacement节点的时候,首先会生成一个训练数据的随机样本,在这个样本的基础上,按照如下规则替换缺失值:

⏹Interval类型的变量,用样本均值替换缺失值;

⏹Binary、nominal和ordinal类型的变量,用样本中的高频值替换缺失值。

有些数据存储,采用特殊值代替缺失值,比如所有的缺失值都用999代替,这种情况下,我们可以通过选择Replace before imputation,同时在Constant values二级标签里面进行缺失值替换规则设置,本例中不涉及到替换规则的改变 

(3)单击Create imputed indicator variables选项左侧的方框,选择此框后,当运行Replacement节点的时候,系统会生成一系列以M为前缀的Binary类型的变量,当某个观测中的某个变量为缺失值的时候,那么系统会将与缺失值变量相关联的以M开头的Binary变量的值赋成“1”,这样,对于回归模型和神经网络模型,就可以用这些替代值来建模了。

(4)关闭Replacement窗口,保存修改。

5.4建模

本例中我们建立的是响应模型,一般来讲,回归模型和决策树模型是建立定位模型的比较适合的工具。

5.4.1回归模型

EM实现回归建模的工具是Regression节点。回归包括线性回归和逻辑回归,当目标变量为ordinal 或者 binary类型的数据的时候,即目标变量为非连续变量的时候,所以我们应该采用逻辑回归建模。

(1)将Regression节点拖到工作区中放到Replacement节点的下方,连接Replacement节点到Regression节点。

(2)双击Regression节点出现Regression窗口,默认出现的是Variables标签。由于Regression节点的默认模型是逻辑回归,所以无需再对Model Options标签进行设置,此处要设置的是Selection Method标签。

    常用的三种逐步回归法:

FORWARD前进法:从模型中没有变量开始,每次将一个最显著的变量引入模型,直到模型以外的变量不再有显著的下值为止;

BACKWAND后退法:从模型中含所有自变量开始,每次从模型中剔除一个贡献最小的变量,直到模型中只剩下均为显著的变量为止;

STEPWISE逐步法:每次引入模型一个最显著的变量,然后考虑从模型中剔除一个最不显著的变量,直到既没有变量引入也没有变量剔除为止。

(3)单击Selection Method标签,出现如下窗口,单击Method右侧的下拉键头,选择Stepwise。

当选择Stepwise以后,会发现Effect Hierarchy变为可选状态,当我们不考虑数据集中两个或两个以上的变量会联合作用于目标变量的时候,则无需对Effect Hierarchy进行设置。

(4)关闭Regression窗口,在弹出对话框中选择“是”保存设置,此时会弹出Save Model As窗口,在Model Name域输入StepReg,在Model Description 域输入Stepwise Logistic Regression,单击“OK”。

到此,我们就已经完成了回归的建模,下面我们先完成决策树的建模之后,在一同比较两个模型的运行结果。

5.4.2决策树模型

采用决策树建模的最大的好处就是其结果易于理解,EM建立决策树模型的工具是Tree 节点。

(1)将Tree节点拖到工作区中,连接Data Partition节点到Tree节点。

    此处,将Tree放在Data Partition节点的下方,是由于我们前面说过,有些模型本身不具有处理缺失值的能力,所以需要通过工具在数据准备节点处理缺失值,而对于Tree工具来说,其本身就具有处理缺失值的能力,所以,此处将Tree节点与 Data Partition节点相连即可。

(2)双击Tree节点,单击Basic标签,出现如下窗口

    可以看到在Tree节点中默认的分支方法是采用检验,显著水平默认为0.2,若要对决策树进行其他更复杂的设置,可以通过Advanced标签进行。这里我们只须保持Tree节点的默认设置。

(3)关闭Tree节点,右键单击节点,选择Run运行节点,从CUSTDET1节点开始到Tree节点的整个工作流中的每个节点四周都会出现绿色的框方框,运行完毕选择是,查看结果,出现如下窗口。

(4)单击SAS主菜单中的“查看”,选择下拉菜单中的“树状结构”,出现如下决策树图

    图中的每个节点分别显示了该分支的详细信息,颜色越深的节点,代表目标事件发生的可能性越大。

(5)关闭Tree diagram窗口,关闭Results-Tree窗口.

5.5评估模型

   EM用来评估模型的工具是Assessment节点,Assessment节点通过运行Test数据可以对所有模型的精确性进行检验。   

(1)将Assessment节点拖到工作区中,放到Regression节点的下面,分别连接Regression和Tree节点到Assessment节点。

(2)右键单击Assessment节点,选择Run,运行过程中从Replacement到Assessment节点四周会出现绿色方框,运行结束在弹出对话框中选择“是”,会出现Assessment Tool窗口

(3)按住Shift键,选择Tree和Regression两个模型,单击SAS主菜单中的“工具”选择“升降图”出现Lift Chart窗口

升降图可以形象的展现模型实施的效果,图中的蓝线表示的是源数据集中,有12%的客户的DINING字段〉0,这个数字代表了如果对所有的客户发出目录,将会有12%的客户相应。

图中黄色的曲线代表的是回归模型的预测效果,红色曲线代表决策树模型的预测效果。

模型会给每一个客户购买DINING产品的倾向打一个分,并将分数从高到低排列后,分为十个等份,图中的横坐标从左到右代表这十个等份,纵坐标代表不同打分的人群的相应率。

可以看出,当分别利用回归和决策树模型对客户进行打分排名后,回归模型前10%的客户响应率达到了30%以上,而决策树模型的前10%的客户响应率只达到25%多一点,如果公司希望扩大宣传力度,例如公司预选择30%的客户群进行宣传,那么利用决策树模型建模可以得到更高的响应率。

 Lift Chart默认显示的是累计的响应率效果,可以通过单击升降图中,Bar Color for 上方的Non-Cumulative前面的圆圈查看非累积的升降图,即每个10%的人群的响应率,以便于公司对每个不同人群的定位。

(4)关闭升降图,关闭Assessment窗口。

5.6应用模型

5.6.1抽取打分程序

在如上的建模过程中,假设我们将目标定位在10%的客户群,显然我们的最佳选择是回归模型,下面我们要把这个模型应用到所有的数据上面。EM提供了一个Score节点来实现对模型的评分代码进行评估、保存以及整合。

(1)将Score节点拖到工作区中,放在Regression节点右边,连接Regression节点到Score节点

(2)双击Score节点,出现Score窗口,在默认出现的Setting标签中选择第二项Apply training data score code to score data set

(3)关闭窗口,保存修改。

5.6.2引入原始数据源

当我们设置好Score节点之后,我们就可以对任何一个结构相同的数据源来进行打分,在这里,由于我们仍然使用样本数据源CUSTDET1。

(1)将Input Data Source节点拖到工作区中,连接Input Data Source节点到Score节点

(2)双击Input Data Source节点,选择SASUSER.CUSTDET1,单击Role右侧的下拉键头,在下拉菜单中选择SCORE

(3) 关闭窗口,保存修改。

5.6.3查看结果

对整个源数据应用模型的结果可以通过Explore工具来查看,前面我们已经应用过一个Insight节点,这里我们介绍另外一个工具-Distribution Explorer节点的使用。

(1)将Distribution Explorer节点拖到工作区中放在Score节点的下方,连接Score节点到Distribution Explorer

在利用Distribution Explorer节点查看模型应用的效果之前必须先运行Score节点

(2)右键单击Score节点,选择Run,Score节点四周会出现绿色方框,运行完毕出现是否查看运行结果的对话框,选择否。

(3)双击Distribution Explorer节点,出现如下窗口

(4)单击Char Only前面的方框,除去差号

(5)单击Data标签,单击Select按钮,在Predecessors下面,展开Score,展开SAS_DATA_SETS,单击最下面的EMDATA.SD_05DW5

(6)单击OK按钮

(7)单击Variables标签,找到变量P_DINEBIN1,右键单击该变量的Axis属性列在探出菜单中选择Set Axis,选择X

(8)单击X Axis标签,可以查看回归模型应用在源数据上之后,整个人群响应率的分布。

6.参考文献:

[1] David Hand,Heikki Mannila,Padhraic Smyth. 数据挖掘原理[M].张银奎,廖丽,宋俊等译. 机械工业出版社,中信出版社,2004.P1.

 

文档

em 教程

SAS8.2EnterpriseMiner数据挖掘实例1.SAS8.2EnterpriseMiner简介数据挖掘就是对观测到的庞大数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。[1]一个数据挖掘工程需要足够的软件来完成分析工作,为了计划、实现和成功建立一个数据挖掘工程,需要一个集成了所有分析阶段的软件解决方案,包括从数据抽样到分析和建模,最后公布结果信息。大部分专业统计数据分析软件只实现特定的数据挖掘技术,而SAS8.2EnterpriseMine
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top