
数据挖掘可以看成是信息技术自然化的结果。数据挖掘(data mining),又译为资料探勘、数据采矿。它是数据库知识发现(knowledge-discovery in databases,简称:kdd)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
知识发现过程由以下三个阶段组成:(1)数据准备(2)数据挖掘(3)结果表达和解释。数据挖掘可以与用户或知识库交互。
数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析,等等。
数据挖掘完整的步骤如下:
① 理解数据和数据的来源(understanding)。
② 获取相关知识与技术(acquisition)。
③ 整合与检查数据(integration and checking)。
④ 去除错误或不一致的数据(data cleaning)。
⑤ 建立模型和假设(model and hypothesis development)。 ⑥ 实际数据挖掘工作(data mining)。
⑦ 测试和验证挖掘结果(testing and verification)。 ⑧ 解释和应用(interpretation and use)。
数据挖掘应用到生活的各个方面,数据挖掘的十大经典算法也随着数据挖掘技术的发展而不断的改进和完善,其中apriori算法是十大经典算法中最为经典的一种算法,该算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。
关联规则的目的在于在一个数据集中找出项之间的关系,也称之为购物蓝分析 (market basketanalysis)。例如,购买鞋的顾客,有10%的可能也会买袜子,60%的买面包的顾客,也会买牛奶。这其中最有名的例子就是尿布和啤酒的故事了。关联规则的应用场合。在商业销售上,关联规则可用于交叉销售,以得到更大的收入;在保险业务方面,如果出现了不常见的索赔要求组合,则可能为欺
诈,需要作进一步的调查。在医疗方面,可找出可能的治疗组合;在银行方面,对顾客进行分析,可以推荐感兴趣的服务等等。apriori algorithm是关联规则里一项基本算法。
关联算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
apriori算法的两大缺点:可能产生大量的候选集,以及可能需要重复扫描数据库。篇二:数据挖掘读书报告
读书报告
数据挖掘可以看成是信息技术自然化的结果。数据挖掘(data mining),又译为资料探勘、数据采矿。它是数据库知识发现(knowledge-discovery in databases,简称:kdd)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
知识发现过程由以下三个阶段组成:(1)数据准备(2)数据挖掘(3)结果表达和解释。数据挖掘可以与用户或知识库交互。
数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析,等等。
数据挖掘完整的步骤如下:
① 理解数据和数据的来源(understanding)。
② 获取相关知识与技术(acquisition)。
③ 整合与检查数据(integration and checking)。
④ 去除错误或不一致的数据(data cleaning)。
⑤ 建立模型和假设(model and hypothesis development)。 ⑥ 实际数据挖掘工作(data mining)。
⑦ 测试和验证挖掘结果(testing and verification)。 ⑧ 解释和应用(interpretation and use)。
数据挖掘应用到生活的各个方面,数据挖掘的十大经典算法也随着数据挖掘技术的发展而不断的改进和完善,其中apriori算法是十大经典算法中最为经典的一种算法,该算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。
关联规则的目的在于在一个数据集中找出项之间的关系,也称之为购物蓝分析 (market basketanalysis)。例如,购买鞋的顾客,有10%的可能也会买袜子,60%的买面包的顾客,也会买牛奶。这其中最有名的例子就是尿布和啤酒的故事了。关联规则的应用场合。在商业销售上,关联规则可用于交叉销售,以得到更大的收入;在保险业务方面,如果出现了不常见的索赔要求组合,则可能为欺
诈,需要作进一步的调查。在医疗方面,可找出可能的治疗组合;在银行方面,对顾客进行分析,可以推荐感兴趣的服务等等。apriori algorithm是关联规则里一项基本算法。
关联算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
(1)l1 = find_frequent_1-itemsets(d); // 挖掘频繁1-项集,比较容易
(2)for (k=2;lk-1 ≠φ ;k++) {
(3)ck = apriori_gen(lk-1 ,min_sup); // 调用apriori_gen方法生成候选频繁k-项集
(4)for each transaction t ∈ d { // 扫描事务数据库d
(5)ct = subset(ck,t);
(6)for each candidate c ∈ ct
(7)c.count++; // 统计候选频繁k-项集的计数
(8)}
(9)lk ={c ∈ ck|c.count≥min_sup} // 满足最小支持度的k-项集即为频繁k-项集
(10) }
(11) return l= ∪ k lk; // 合并频繁k-项集(k>0)
apriori算法就是运用了关联规则的算法思想。以下是apriori算法的流程图:
apriori算法的两大缺点:可能产生大量的候选集
,以及可能需要重复扫描数据库。
提高apriori算法的效率:
1、 基于散列的技术(散列项集到对应的桶中)
一种基于散列的技术可以用于压缩候选k项集ck(k>1)。
2、 事务压缩(压缩未来迭代扫描的事务数);不包含任何频繁k项集的
事务不可能包含任何频繁(k+1)项集。因此,这种事务在其后的考虑
时,可以加上标记或删除,因为产生j项集(j>k)的数据库扫描不再
需要他们。
3、 划分(为寻找候选项集划分数据)
4、 抽样(对给定数据的子集挖掘)
5、 动态项集技术(在扫描的不同点添加候选项集)
关联算法的c++简单实现
(1)算法数据:
对给定数据集用apriori算法进行挖掘,
找出其中的频繁集并生成关联规则。
对下面数据集进行挖掘:
。
(2)算法步骤:
① 首先单趟扫描数据集,计算各个一项集的支持度,根据给定的最小支持 度闵值,得到一项频繁集l1。
② 然后通过连接运算,得到二项候选集,对每个候选集再次扫描数据集,得出每个候选集的支持度,再与最小支持度比较。得到二项频繁集l2。 ③ 如此进行下去,直到不能连接产生新的候选集为止。
④ 对于找到的所有频繁集,用规则提取算法进行关联规则的提取。
(3)c++算法的简单实现
①首先要在工程名文件夹里自己定义date.txt文档存放数据,然后在main函数中用file* fp=fopen(date.txt,r);将数据导入算法。
②定义int countl1[10];找到各一维频繁子集出现的次数。
定义char curl1[20][2];实现出现的一维子集。
由于给出的数据最多有4个数,所以同样的我们要定义到4维来放数据。
int countl2[10]; //各二维频繁子集出现的次数
char curl2[20][3]; //出现的二维子集
int countl3[10]; //各三维频繁子集出现的次数
char curl3[20][4]; //出现的三维子集
char cur[50][4];
③定义int sizestr(char* m) 得到字符串的长度。实现代码如下: int sizestr(char* m)
{
int i=0;
while(*(m+i)!=0)
{
i++;
}
return i;
}
④比较两个字符串,如果相等返回true,否则返回false
bool opd(char* x,char* y)
{篇三:《数据挖掘》读书报告
《数据挖掘导论》读书报告
随着网络信息时代的到来,数据收集和数据存储技术也在飞速发展,使得各组织机构可以积累海量数据。然而,提取有用的信息已经成为巨大的挑战。由于数据量太大,无法使用传统的数据分析工具和技术处理它们。有时,即使数据集相对较小,但由于数据本身具有的一些非传统特点,也不能使用传统的方法进行处理。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。它将传统的数据分析方法与处理大量数据的复杂算法相结合,为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会。我所阅读的《数据挖掘导论》与其他同类图书不同的是,这本书将重点放在如何用数据挖掘知识解决各种实际问题上。而且本书只要求很少的预备知识,即使没有数据库背景,只需要很少的统计学或数学知识背景,就能读懂其中的内容。
《数据挖掘导论》共分为十章,主要涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都分两章讲述。对于分类、关联分析和聚类,前面一章讲述基本概念、代表性算法和评估技术,后面一章深入讨论高级概念和算法。第一章的绪论主要对数据挖掘进行了概述。什么是数据挖掘?用比较简洁的话说,数据挖掘就是在大型数据存储库中,自动地发现有用信息的过程,它是数据库中知识发现全过程的一个核心步骤。作为一类深层次的数据分析方法,它利用了数据库、人工智能和数理统计等多方面的技术,帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。相对于传统数据分析方法,数据挖据技术需具备以下特征:(1)由于数据挖掘通常要处理的数据是海量的,它的算法必须是可伸缩的;(2)为低维数据开发的传统数据分析技术通常不能很好地处理那些具有成千上百属性的数据集,且随着维度的增加,某些数据分析算法的计算复杂性也在迅速增加,这就要求数据挖掘技术具有高维性;(3)数据挖掘还需具备处理异种数据和复杂数据的能力;(4)需要开发分布式数据挖掘技术来处理在地理上分布在属于多个机构的资源中的数据;(5)能自动地产生和评估假设等。接着介绍了数据挖掘任务:预测任务和描述任务。预测任务是通过分析数据建立一个或一组模型,并试图预测新数据集的行为,包括分类/预测分析、时间序列分析、离群点分析等。描述任务以简洁概要的方式描述数据,并提供数据的一般性质和规律,如聚类分析、关联分析、数据汇总等。本章简单介绍了四种主要数据挖掘任务:预测建模、关联分析、聚类分析和异常检测。预测建模旨在以说明变量函数的方式为目标变量建立模型。预测建模任务分为两类:分类,用于预测离散的目标变量;回归,用于预测连续的目标变量。两项任务的目标都是训练一个模型,使目标预测值与实际之间的误差达到最小。关联分析用来发现描述数据中强关联特征的模式,它的目标是以有效的方式提取最有趣的模式。聚类分析旨在发现紧
密相关的观测值群组,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似,聚类分析通常用来对相关顾客分组等。异常检测的任务则是识别其特征显著不同于其他数据的观测值,这样的观测值称为离群点或异常点。它的应用包括检测欺诈、网络攻击等。
本书第二章讨论了数据的基本类型、数据质量、预处理技术以及相似性和相异性度量。数据挖掘是一种技术,数据挖掘研究通常是为了适应新的应用领域和新的数据类型的需要而展开的,而数据的类型决定我们应使用哪种工具和技术来分析数据。因此了解数据对于数据挖掘的成败来说至关重要。数据对象用一组刻画对象实体基本特性的属性描述。属性分为分类的(定性的)和数值的(定量的),分类属性包括标称属性和序数属性,它们不具有数的大部分性质。数值属性包括区间属性和比率属性,它们用数表示,且具有数的大部分性质。书中还介绍了三种比较常见的数据集类型:记录数据(如购物篮数据)、基于图形的数据、有序数据。而由于人的错误、测量设备的或数据收集过程的漏洞等因素,数据一般存在质量问题。数据质量问题主要是在数据测量和收集方面产生的。测量误差主要有:噪声和伪像、精度、偏倚和准确率。数据收集错误主要由离群点、遗漏和不一致的值、重复数据构成。特别地,数据质量问题从应用上考虑,存在时效性和相关性等问题。为了提高数据质量,数据挖掘主要着眼于两个方面:(1)数据质量问题的检测和纠正;(2)使用可以容忍低质量数据的算法。而数据预处理过程则是为了改善数据挖掘分析工作,减少时间,降低成本和提高质量,使数据更加适合挖掘。文中讨论了一些数据预处理的思想和方法:聚集、抽样、维归约、特征子集选择、特征创建、离散化和二元化、变量变换等。大致可以分为两类:选择分析所需要的数据对象和属性以及创建或改变属性。其中,在数据属性个数较低时,维归约可以删除不相关特征并降低噪声,还可以使模型更容易理解,更容易使数据可视化。在这种情况下,采用维归约进行数据预处理,数据挖掘算法的效果会更好。最后本书还讲述了相似性度量和相异性度量的含义及相关计算方法。一般使用邻近度来表示相似性或相异性。相似度通常在0和1之间取值,两个对象越相似,它们的相似度越高,相异度就越低。距离通常用来表示特定类型的相异度。为了直截了当的表明两个对象之间的相似或相异程度,邻近度度量被定义为或变换到区间[0,1]中的值,书中详细介绍了邻近度到[0,1]区间的变换方法。接下来首先介绍了包含简单属性的对象之间的邻近度计算方法,然后考虑具有多个属性的对象的邻近度的计算方法。在选取邻近度度量的过程中,应注意以下几点:(1)邻近性度量的类型应当与数据类型相适应;(2)对于许多稠密的、连续的数据,通常使用距离度量,如欧几里得距离等;(3)连续属性之间的邻近度通常用属性值的差来表示,且距离度量提供了一些将这些差组合到总邻近性度量的良好方法。在许多情况下,一旦计算出数据对象之间的相似性或相异性,就不再需要原始数据了。
第三章,探索数据,本章对数据进行初步的研究,以便更好地理解它的特殊性质。以鸢尾花数据集为例,详细介绍了汇总统计、可视化、联机分析处理等用于数据探索的标准方法。数据探索有助于选择合适的数据预处理和数据分析技术,它甚至可以处理一些通常由数据挖掘解决的问题。汇总统计是最常见的统计形式,本章集中讨论了对单个属性值的汇总统计,同时简略介绍了某些多元汇总统计。对于分类属性,常常考虑值的众数和频率;对于有序属性,通常考虑值集的百分位数;对于连续属性,两个使用最广泛的汇总统计是均值和中位数。连续属性另一组常用汇总统计是值集的弥散或散布度量(极差和方差等)。对于多元数据,每个属性的散布可以于其他属性,可使用极差和方差等散布度量进行汇总统计。而具有连续变量的数据,数据的散布则更多的用协方差矩阵s表示。本章重点强调可视化技术,数据可视化是指以图形或表格的形式显示信息,数据探索中使用的可视化等技术可用于理解和解释数据挖掘结果。可视化的第一步就是将信息映射成可视形式,也就是说,数据对象、它们的属性、以及数据对象之间的联系要转换成诸如点、线、形状和颜色等图形元素。一般来说,很难确保将对象和属性的映射表示成图形元素之间易于观察的联系,因此可视化的主要难点就是选择一种技术,让关注的联系易于观察。本书主要讨论了三种类型的可视化技术:少量属性的可视化、具有时间和/或空间属性的数据可视化,以及高维数据可视化。少量属性的可视化可以采用直方图、盒状图、百分位数图和经验累计分布函数图、饼图、散布图、二维直方图等技术。可视化时间空间数据则可采用等高线图、曲面图、矢量场图、低维切片、动画等技术。可视化高维数据可以采用平行坐标系、星形坐标和chernoff脸等技术。最后介绍了olap和数据分析。olap是一种新近开发的包含一系列考察数组数据的技术,它的分析功能集中在从数组中创建汇总表的各种方法。在用数组表示数据的过程中,我们需要注意两点:维的识别和分析所关注的属性的识别。本书主要讨论数据立方体的创建和相关操作,如切片、切块、维归约、上卷和下钻。其中,上卷和下钻操作与聚集相关。但它们不同于迄今为止所讨论的聚集操作,它们在一个维内聚集单元,而不是在整个维上聚集。
第四章和第五章涵盖分类,第四章是基础,讨论决策树分类和一些重要的分类问题:过分拟合、性能评估和不同分类模型的比较。分类任务就是通过分析训练集中的数据,为每个类别建立分类分析模型,然后用这个分类分析模型对数据库中的其他记录进行分类。分类模型可用于描述性建模和预测性建模。解决分类问题的方法有很多,第四章重点介绍决策树分类法,它采用树状分岔的架构来产生规则,适用于所有分类的问题。hunt算法是许多决策树算法的基础,它采用贪心策略,在选择划分数据的属性时,采取一系列局部最优决策来构造决策树。在hunt算法中,通过将训练记录相继划分为较纯的子集,以递归方式建立决策树。书中以预测贷款申请者是否会按时归还贷款为例,详细介绍了hunt算法的
相关步骤。在构建决策树的同时,决策树归纳的学习算法必须解决下面两个问题即如何训练记录和如何停止过程。为了实现训练记录,算法必须为不同类型的属性指定测试条件的方法,并提供评估每种测试条件的客观度量,如不纯性度量。对于如何停止过程,一个可能的策略是结点,直到所有的记录都属于同一个类,或所有的记录都具有相同的属性值,还可以使用其他的标准提前终止树的生长过程。此外,一个好的分类模型必须具有低训练误差和低泛化误差。训练误差就是在训练记录上误分类样本比例,泛化误差即模型在未知记录上的期望误差。所谓模型过分拟合就是对训练数据拟合度过高的模型,其泛化误差可能比具有较高训练误差的模型高。造成模型过分拟合的一些潜在因素:噪声、缺乏代表性样本、大量的候选属性和少量的训练记录等。我们可以使用以下两种方法在决策树归纳上避免过分拟合:先剪枝(提前终止规则)和后剪枝。由于学习算法只能访问训练数据集,对检验数据集,它一无所知,我们所能做的就是估计决策树的泛化误差。文中提供了一些估计泛化误差的方法:使用训练误差估计、结合模型复杂度估计、用训练误差的统计修正来估计、使用确认集估计。对于泛化误差的可靠估计能让学习算法搜索到准确的模型,且不会对训练数据过分拟合。然后介绍了评估分类器性能的四种方法:保持方法、随机二次抽样、交叉验证和自助法。最后详细讨论比较分类器的方法。
在第四章基础上,第五章介绍其他重要的分类技术:基于规则的系统、最近邻分类器、贝叶斯分类器、人工神经网络、支持向量机以及组合分类器,还介绍了类失衡和多类问题。基于规则的分类器是使用一组"if...then..."规则来对记录进行分类的技术,相对其他分类技术而言,它和最近邻分类器是最简单的。分类规则的质量可以用覆盖率和准确率来度量。基于规则的分类器是根据测试记录所触发的规则来对记录进行分类的,书中以动物分类为例,做了详细的介绍。基于最近邻的分类器是一类基于实例的学习,它使用具体的训练实例进行预测,是一种消极学习方法,它不需要建立模型。贝叶斯分类方法是一种对属性集和类变量的概率关系建模的方法。文中详细介绍了贝叶斯分类器的两种实现:朴素贝叶斯和贝叶斯信念网络。贝叶斯分类器从理论上讲具有最小的出错率,还可以用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。其缺点主要来自于贝叶斯分类的假定,当假定成立时,与其分类算法相比最精确的,然而,在实践中,假定不一定总是成立的。人工神经网络是有一组相互连接的结点和有向链构成。本章重点介绍了如下两种ann模型:感知器、多层人工神经网络。神经网络技术的优点是对其噪声数据具有较高的承受能力,对未经训练的数据具有分类识别的能力。但是它的主要缺点是可解释性差,这影响了神经网络技术的使用。相对于神经网络技术,决策树技术的优点比较易于理解和解释,而它的主要缺点是由于递归划分方式导致数据子集变小,失去了进一步划分的意义。支持向量机是一种更高级的分类技术,它可以很好地应用于高维数据,避免了维灾难。它通过最
大化决策边界的边缘来控制模型的能力。而组合方法则是通过聚集多个分类器的预测来提高分类的准确率。组合方法由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行投票来进行分类。文中主要介绍了构建组合分类器的技术及组合方法比任意单分类器的效果好的原因。总之,书中介绍的分类算法虽多,但各有优缺点,因此在具体工作中,必须根据数据类型特点及数据集大小,选择合适的算法,也可以通过对数据进行预处理来提高分类过程的准确性、有效性和可伸缩性。最后文中还给出了一些为处理不平衡类问题而开发的方法和扩展二元分类器以处理多类问题的方法。
第六章详细介绍了关联分析的基础:频繁项集、关联规则以及产生它们的一些算法。关联分析是当前数据挖掘领域最常用的一种方法,主要用于发现隐藏在数据集中不同领域之间的联系,它的目的在于在一个数据集中找出项的关系。书中介绍了一个很有名的例子:尿布和啤酒,表示成关联规则的形式就是{尿布}→{啤酒}。这就是使用关联分析方法所得到的结果,而关联分析所得到的结果,我们可以用关联规则或者频繁项集的形式表示。关联分析的挖掘分为两步:(1)找出所有频繁项集;(2)由频繁项集产生强关联规则。而在搜索频繁项集时,最基本的算法就是apriori算法。该算法开创性地使用了基于支持度的剪枝技术,系统地控制候选项集指数增长。它的核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。尽管apriori算法十分简洁明了,但同时也存在一些难以克服的缺点。因此,书中还详细介绍了一些替代方法,如频繁树算法等。另外,本章还介绍了一些特殊类型频繁项集:极大频繁项集和闭频繁项集。最后讨论了关联分析的评估度量。在第六章中,主要针对的是非对称的二元属性,并且只有频繁模式才被认为是有趣的。第七章则是将这种表示扩展到具有对称二元属性、分类属性和连续属性的数据集,并且详细讨论了三类对连续数据进行关联分析的方法:(1)基于离散化的方法;(2)基于统计学的方法;(3)非离散化的方法。此外,还讲述了概念分层的基本定义和处理方法及将它引入关联规则的优缺点。介绍了序列模式的基本概念和发现序列模式的算法,及频繁子图的挖掘问题。最后,本章还简单概述了非频繁模式的概念及相关算法。
第八章主要讲述聚类分析的基本概念和算法。首先介绍了不同的簇类型:明显分离的、基于原型的、基于图的、基于密度的、共同性质的。然后给出三种特定的聚类技术:k均值、凝聚层次聚类和dbscan,最后讨论验证聚类算法结果的技术。聚类分析是指根据在数据中发现的描述对象及其关系的信息将数据对象分组的分析过程。它与分类规则不同的是,聚类分析是一种探索性分析,进行聚类前并不知道将要划分为几个组和什么样的组,也不确定根据哪些空间区分规则来定义组。聚类分析的目标就是在相似的基础上收集数据来分类。组内的相似性越大,组间差别越大,聚类就越好。聚类分析是数据挖掘的主要任务之一,它篇四:《数据挖掘导论》读书报告
数据收集和数据存储技术的快速进步使得各组织机构可以积累海量数据。然而,提取有用的信息已经成为巨大的挑战。通常,由于数据量太大,无法使用传统的数据分析丁具和技术处理它们。有时,即使数据集相对较小,但由于数据本身具有一些非传统特点,也不能使用传统的方法处理。在另外一些情况下,面临的问题不能使用已有的数据分析技术来解决。这样,就需要开发新的方法。
数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探査和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会。本章,我们概述数据挖掘,并列举本书所涵盖的关键主题。
数据挖掘技术可以用来支持广泛的商务智能应用,如顾客分析、定向营销、工作流管理、商店分布和欺诈检测等。数据挖掘还能帮助零售商回答一些重要的商务问题,如"谁是最有价值的顾客? ""什么产品可以交叉销售或提升销售? ""公司明年的收入前景如何? "这些问题催生了一种新的数据分析技术。
医学、科学与工程医学、科学与工程技术界的研究者正在快速积累大量数据,这些数据对获得有价值的新发现至关重要。例如,为了更深入地理解地球的气候系统,nasa己经部署了一系列的地球轨道卫星,不停地收集地表、海洋和大气的全球观测数据。然而,由于这些数据的规模和时空特性,传统的方法常常不适合分析这些数据集。数据挖掘开发的技术可以帮助地球科学家回答如下问题:"千旱和飓风等生态系统扰动的频度和强度与全球变暖之间有何联系?""海洋表面温度对地表降水量和温度有何影响?""如何准确地预测一个地区的生长季节的开始和结束?"
什么是数据挖掘
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探査大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果,例如,预测一位新的顾客是否会在一家百货公司消费100美元以上。
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎査找特定的web页面,则是信息检索领域的任务。虽然这些任务非常重要,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,人们也在利用数据挖掘技术增强信息检索系统
的能力。
数据挖掘与知识发现
数据挖掘是数据库中知识发现(knowledge discovery in database, kdd)不可缺少的一部分, 而kdd是将未加工的数据转换为有用信息的整个过程。该过程包括一系列转换步骤,从数据的预处理到数据挖掘结果的后处理。输入数据可以以各种形式存储(平展文件、电子数据表或关系表),并且可以驻留在集中的数据存储库中,或分布在多个站点上。数据预处理(preprocessing)的目的是将未加工的输入数据转换成适合分析的形式。数据预处理涉及的步骤包括融合来自多个数据源的数据,清洗数据以消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的 方式多种多样,数据预处理可能是整个知识发现过程中最费力、最耗时的步骤。
"结束循环"(dosing the loop)通常指将数据挖掘结果集成到决策支持系统的过程。篇五:数据挖掘概念与技术读书笔记
1、 可以挖掘的数据类型:
数据库数据,数据仓库(是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上,通常数据仓库用称作数据立方体的数据结构建模,数据立方体有下钻(往下细分)和上卷(继续记性总和归纳)操作),事务数据,时间先关或序列数据(如历史记录,股票交易数据等),数据流、空间数据、工程设计数据,超文本和多媒体数据
2、 可以挖掘什么类型的模型
数据挖掘功能包括特征化与区分、频繁模式、关联和相关性挖掘分类与回归、聚类分析、离群点分析。数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳,以便做出预测。
特征化与区分:数据特征化(如查询某类产品的特征)、数据区分(将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较,如把具有不同特性的产品进行对比区分)。 挖掘频繁模式、关联和相关性:频繁模式是在数据中频繁出现的模式(频繁项集、频繁子序列和频繁子结构)
用于预测分析的分类与回归:分类是找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。到处模型是基于对训练数据集的分析。该模型用来预测类
标号未知的对象类标号。表现形式有:分类规则(if-then)、决策树、数学公式和神经网络。
分类预测类别标号,而回归简历连续值函数模型,而不是离散的类标号。
相关分析可能需要在分类和回归之前进行,他试图识别与分类和回归过程显著相关的属性。
聚类分析:聚类分析数据对象,而不考虑类标号。
离群分析:数据集中可能包含一些数据对象,他么对数据的一般行为或模型不一致。这些数据时利群点。
3、 使用什么技术:
统计学中的统计模型
机器学习:监督学习(分类的同义词学习中监督来自训练数据集中标记的实例)
无监督学习:本质上是聚类的同义词。学习过程是无监督的,因为输入实例没有类标记。由于训练无边际,所以学习到的模型并不能告诉我们所发现的簇的语意。
半监督学习:在学习模型时,它使用标记的和未标记的实例。标记的实例用来学习类模型,而未标记的实例用来进一步改进类边界。
