
1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、分析是指以“维”形式组织起来的数据(数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、型数据集合、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”意味着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
11、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
12、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
13、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
14、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。
15、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。
16、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。
17、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
18、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。
19、SQL Server SSAS提供了所有业务数据的同意整合试图,可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。
20、数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分(包括名称、维度、类别、层次和度量)全面地描述出来。
21、数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来。
22、按照事实表中度量的可加性情况,可以把事实表对应的事实分为4种类型:事务事实、快照事实、线性项目事实和事件事实。
23、确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据拥护需求设计聚合。
24、在项目实施时,根据事实表的特点和拥护的查询需求,可以选用时间、业务类型、区域和下属组织等多种数据分割类型。
25、当维表中的主键在事实表中没有与外键关联时,这样的维称为退化维。它于事实表并无关系,但有时在查询条件(如订单号码、出货单编号等)中需要用到。
26、维度可以根据其变化快慢分为无变化维度、缓慢变化维度和剧烈变化维度三类。
27、数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化索引结构来提高数据存取性能。
28、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表的物理分割(分区)。
29、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。
30、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}
再经过修剪,C3={{a,b,c},{a,b,d}}
31、分类的过程包括获取数据、预处理、分类器设计和分类决策。
32、分类器设计阶段包含三个过程:划分数据集、分类器构造和分类器测试。
33、分类问题中常用的评价准则有精确度、查全率和查准率和几何均值。
34、支持向量机中常用的核函数有多项式核函数、径向基核函数和S型核函数。
35、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度计算方法。
36、连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。
37、划分聚类方法对数据集进行聚类时包含三个要点:选种某种距离作为数据样本减的相似性度量、选择评价聚类性能的准则函数、选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。
38、层次聚类方法包括凝聚型和分解型两中层次聚类方法。
二、问答题
1、什么是数据仓库?数据仓库的特点主要有哪些?
数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点:(1)面向主题:操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。(2)集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。 (3)相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。(4)反映历史变化:操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。
2、简述你对数据仓库未来发展趋势的看法。
数据仓库技术的发展包括数据抽取、存储管理、数据表现和方等方面。在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web 技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备。
5、什么是分类?分类的应用领域有哪些?
分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。
分类问题是数据挖掘领域中研究和应用最为广泛的技术之一,许多分类算法被包含在统计分析工具的软件包中,作为专门的分类工具来使用。分类问题在商业、银行业、医疗诊断、生物学、文本挖掘、因特网筛选等领域都有广泛应用。例如,在银行业中,分类方法可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减小银行的损失;在医疗诊断中,分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命;在因特网筛选中,分类方法可以协助网络工作人员将正常邮件和垃圾邮件进行分类,从而制定有效的垃圾邮件过滤机制,防止垃圾邮件干扰人们的正常生活。
5、什么是聚类分析?聚类分析的应用领域有哪些?
聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别
中任意两个数据样本之间具有较高的相似度,不同类别的数据样本之间具有较低的相似度。
聚类分析是数据挖掘应用的主要技术之一,它可以作为一个的工具来使用,将未知
类标号的数据集划分为多个类别之后,观察每个类别中数据样本的特点,并且对某些特定的
类别作进一步的分析。此外,聚类分析还可以作为其他数据挖掘技术(例如分类学习、关联
规则挖掘等)的预处理工作。聚类分析在科学数据分析、商业、生物学、医疗诊断、文本挖
掘、Web 数据挖掘等领域都有广泛应用。在科学数据分析中,比如对于卫星遥感照片,聚
类可以将相似的区域归类,有助于研究人员根据具体情况做进一步分析;在商业领域,聚类
可以帮助市场分析人员对客户的基本数据进行分析,发现购买模式不同的客户群,从而协助
市场调整销售计划;在生物学方面,聚类可以帮助研究人员按照基因的相似度对动物和植物
的种群进行划分,从而获得对种群中固有结构的认识;在医疗诊断中,聚类可以对细胞进行
归类,有助于医疗人员发现异常细胞的聚类,从而对病人及时采取措施;在文本挖掘和Web
数据挖掘领域中,聚类可以将网站数据按照读者的兴趣度进行划分,有助于网站内容的改进。
6、什么是粗糙集?在数据分析中有何作用?
粗糙集理论是一种新型处理不完整性和不确定性问题的数学工具
作用:它能对不完整数据资料进行分析、推理、学习和发现,具有很强的知识获取能力。
三、简答题
1、数据仓库的组成?P2
数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统
2、数据挖掘技术对聚类分析的要求有哪几个方面?P131
可伸缩性;处理不同类型属性的能力;发现任意形状聚类的能力;减小对先验知识和用户自定义参数的依赖性;处理噪声数据的能力;可解释性和实用性
3、数据仓库在存储和管理方面的特点与关键技术?P7
数据仓库面对的是大量数据的存储与管理
并行处理
针对决策支持查询的优化
支持分析的查询模式
4、常见的聚类算法可以分为几类?P132
基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法,基于模型的聚类算法 等。
5、一个典型的数据仓库系统的组成?P12
数据源、数据存储与管理、OLAP服务器、前端工具与应用
6、数据仓库常见的存储优化方法?P71
表的归并与簇文件;反向规范化,引入冗余;表的物理分割。
7、数据仓库发展演变的5个阶段?P20
以报表为主
以分析为主
以预测模型为主
以运行向导为主以实时数据仓库、自动决策应用为主
8、ID3算法主要存在的缺点?P116
(1)ID3算法在选择根结点和各内部结点中的分枝属性时,使用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。
(2)ID3算法只能对描述属性为离散型属性的数据集构造决策树。
9、简述数据仓库ETL软件的主要功能和对产生数据的目标要求。P30
ETL软件的主要功能:
数据的抽取,数据的转换,数据的加载
对产生数据的目标要求:
详细的、历史的、规范化的、可理解的、即时的、质量可控制的
10、简述分类器设计阶段包含的3个过程。
划分数据集,分类器构造,分类器测试
11、什么是数据清洗?P33
数据清洗是一种使用模式识别和其他技术,在将原始数据转换和移到数据仓库之前来升级原始数据质量的技术。
12、利用信息包图设计数据仓库概念模型需要确定的三方面内容。P57
确定指标,确定维度,确定类别
13、什么是技术元数据,主要包含的内容?P29
技术元数据是描述关于数据仓库技术细节的数据,应用于开发、管理和维护DW(数据仓库)
主要包含:
DW结构的描述
业务系统、DW和数据集市的体系结构和模式
汇总算法
由操作型业务环境到数据仓库业务环境的映射
14、业务元数据主要包含的内容?P29
主要包含:
使用者的业务属于所表达的数据模型、对象名和属性名
访问数据的原则和数据的来源
系统提供的分析方法及公式和报表的信息。
15、数据从集结区加载到数据仓库中的主要方法?P36
SQL命令(如Insert或Update)
由DW供应商或第三方提供专门的加载工具
由DW管理员编写自定义程序
16、数据模型中的基本概念:维,维类别,维属性,粒度P37
维:人们观察数据的特定角度,是考虑问题的一类属性,如时间维或产品维
维类别:也称维分层。即同一维度还可以存在细节程度不同的各个类别属性(如时间维包括年、季度、月等)
维属性:是维的一个取值,是数据线在某维中位置的描述。
粒度:DW中数据综合程度高低的一个衡量。粒度低,细节程度高,回答查询的种类多
四、计算题
1、对本章图7.1所示的叶贝斯网络,计算有酒精味、头疼、X射线检查呈阳性时,患脑瘤的概率,也就是计算P(BT|SA,HA,PX)。(P165)
答:由SA 发生得知,HO 发生/不发生的概率为0.56566/0.43434;由PX 发生得知,BT 发生/不发生的概率为0.01/0.9109。根据表7.6 中给出的联合条件概率分布,可得HA 发生/不发生的概率是0.4533/0.5467。再根据条件概率公式:
P(+BT|+HA) = P(+HA|+BT) P(+BT) /P(+HA) = 0.9509 × 0.01 / 0.4533 = 0.1869。
2、例7.5中计算得到:已知头疼的情况下,患脑瘤的概率是0.007867;而例7.7中计算得到:已知有酒精味、头疼的情况下,患脑瘤的概率是0.002347.为什么“有酒精味”这个现象出现能够影响患脑瘤的状况?
事实上,从“有酒精味”到“患脑瘤”之间没有任何的因果关系,也就是说,“有酒精味”并不能影响到脑瘤的产生。但是,“有酒精味”能够影响“患脑瘤”的诊断概率。这是因为,“有酒精味”使得引起“头疼”的更多因素归为喝酒,而不是患脑瘤,从而使得“患脑瘤”的概率大大降低。
3、怎样从历史数据中训练出结点之间的条件概率或联合条件概率?(P165)
要训练条件概率P(B|A),可以在历史数据中统计A 发生的次数T(A),然后统计在A 发生的数据中B 发生的次数T(A,B),条件概率P(B|A) = T(B)/T(A)。要训练联合条件概率P(C|A,B),可以在历史数据中统计A、B 共同发生的次数T(A,B),然后在A、B 共同发生的数据中统计C 发生的次数T(A,B,C),联合条件概率P(C|A,B)=T(A,B,C)/T(A,B)。以上的符号A、B、C 可以表示某个事件,也可以表示该事件的相反事件。
4、某系统有三个识别属性,共含6个识别元素,如表所示(P180):
| 对象 | 属性1取值 | 属性2取值 | 属性3取值 |
| X1 | 1 | 1 | 3 |
| X2 | 1 | 1 | 3 |
| X3 | 2 | 1 | 1 |
| X4 | 3 | 2 | 2 |
| X5 | 3 | 2 | 1 |
| X6 | 2 | 1 | 2 |
(1)由R1,R2,R3分别形成的等价划分。
(2)由R形成的等价划分。
(3)如果X={X1,X2,X3},求X相对于R的粗糙度。
答:
(1)由R1形成的等价类划分是{x1,x2}、{x3,x6}和{x4,x5};
由R2形成的等价类划分是{x1,x2,x3,x6}和{x4,x5};
由R3形成的等价类划分是{x1,x2}、{x3,x5}和{x4,x6}。
(2)由R形成的等价类划分是{x1,x2}、{x3},{x4},{x5},{x6}。
(3)X相对于R的粗糙度为1/3。
