最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

数据仓库习题集

来源:动视网 责编:小OO 时间:2025-09-25 06:54:36
文档

数据仓库习题集

一、选择填空.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A分类B关联C估值D预言数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A数据抽取B数据转换C数据加载D数据稽核数
推荐度:
导读一、选择填空.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A分类B关联C估值D预言数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A数据抽取B数据转换C数据加载D数据稽核数
一、选择填空.

数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。、

粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。

维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。

连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。在数据挖掘的分析方法中,直接数据挖掘包括(ACD)

A 分类

B 关联

C 估值

D 预言

数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)

A 数据抽取

B 数据转换

C 数据加载

D 数据稽核

数据分类的评价准则包括( ABCD )

A 精确度

B 查全率和查准率

C F-Measure

D 几何均值

层次聚类方法包括( BC )

A 划分聚类方法

B 凝聚型层次聚类方法

C 分解型层次聚类方法

D 基于密度聚类方法

贝叶斯网络由两部分组成,分别是( A D )

A 网络结构

B 先验概率

C 后验概率

D 条件概率表

置信度(confidence)是衡量兴趣度度量( A )的指标。

A、简洁性

B、确定性

C.、实用性

D、新颖性

关于OLAP和OLTP的区别描述,不正确的是: (C)

A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.

B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.

C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.

D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的

简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )

A、层次聚类

B、划分聚类

C、非互斥聚类

D、模糊聚类

将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)

A. 频繁模式挖掘

B. 分类和预测

C. 数据预处理

D. 数据流挖掘

为数据的总体分布建模;把空间划分成组等问题属于数据挖掘的哪一类任务?(B)

A. 探索性数据分析

B. 建模描述

C. 预测建模

D. 寻找模式和规则

6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD)

A 分类

B 关联

C 估值

D 预言

7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)

A 数据抽取

B 数据转换

C 数据加载

D 数据稽核8.数据分类的评价准则包括( ABCD )

A 精确度

B 查全率和查准率

C F-Measure

D 几何均值

9.层次聚类方法包括( BC )

A 划分聚类方法

B 凝聚型层次聚类方法

C 分解型层次聚类方法

D 基于密度聚类方法

10.贝叶斯网络由两部分组成,分别是( A D )

A 网络结构

B 先验概率

C 后验概率

D 条件概率表

二、判断题

1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对)

2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)

3. 图挖掘技术在社会网络分析中扮演了重要的角色。(对)

4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)

5. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)

6. 离群点可以是合法的数据对象或者值。    (对)

7. 离散属性总是具有有限个值。        (错)

8. 噪声和伪像是数据错误这一相同表述的两种叫法。     (错)

9. 用于分类的离散化方法之间的根本区别在于是否使用类信息。   (对)

10. 特征提取技术并不依赖于特定的领域。      (错)

11. 序列数据没有时间戳。      (对)

12. 定量属性可以是整数值或者是连续值。     (对)

13. 可视化技术对于分析的数据类型通常不是专用性的。    (错)

14. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对)

15. OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。(对)

16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。(对)

17. 数据仓库中间层OLAP服务器只能采用关系型OLAP (错)18.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错)

19. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息. (错)

21. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)

22. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。

23. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错

24. 如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其中是X的子集。(对)

25. 具有较高的支持度的项集具有较高的置信度。(错)

26. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。(错)

27. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对)28. 对于SVM 分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 (对)29. Bayes 法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 (错)30.分类模型的误差大致分为两种:训练误差(training error )和泛化误差(generalization error ). (对)31. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 (错)32. SVM 是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier ) (错)33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)34. 聚类分析可以看作是一种非监督的分类。(对)35. K 均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错36. 给定由两次运行K 均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(错)37. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)38. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种的层次聚类方法。(错)40. DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)三、计算题1.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收

款机业务中卖出的项目,假定sup min =40%,conf min =40%,使用Apriori 算法计

算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)事务项目事务

项目 T1 T2

T3

面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱 T4

T5啤酒、面包啤酒、牛奶解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候

选C 1,计算其支持度,取出支持度小于sup min 的项集,形成1-频繁集L 1,如下

项集C1 支持度项集L1支持度

{面包}

{花生酱}

{牛奶} {啤酒}

4/5

3/5

2/5

2/5

{面包}

{花生酱}

{牛奶}

{啤酒}

4/5

3/5

2/5

2/5

(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:

项集C2支持度项集L2支持度{面包、花生酱} 3/5{面包、花生酱} 3/5

至此,所有频繁集都被找到,算法结束,

所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf min

confidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min

所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

2.给定以下数据集(2 ,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)

解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m1=2,m2=4:

(2)对于X中的任意数据样本xm(1当m2=4时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。

最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3),另一个聚类m2=4为(4,10,12,15,21)。

(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:

m1=2.5,m2=12:

(4)对于X中的任意数据样本xm(1当m2=12时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,-8,2,3,9。

最小距离是1.5将该元素放入m1=2.5的聚类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。

(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=3,

m2=14.5:

(6)对于X中的任意数据样本xm(1当m2=14.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-12.58,-11.5,-10.5,-4.5,-2.5,0.5,6.5。

最小距离是0.5将该元素放入m1=3的聚类中,则该聚类为(2,3,4),另一个聚类m2=14.5为(10,12,15,21)。

至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。

3.

K均值算法的过程为:

1:选择K个点作为初始质点。

2: repeat

3: 每个点指派到最近的质心,形成K个簇。

4. 重新计算每个簇的质心、

5. until质心不发生变化。

例题: A1,B1,C作为初始质点,距离函数是Euclidean函数,指派点到最近的质心,方法为计算其他点到质点的欧几里得距离。计算距离如下:A1-A2 :dist=(2-2)2 +(5-10)2=25;

A1-A3:dist=(8-2)2+(4-10)2=72; A1-B2:dist=(7-2)2+(5-10)2 =50; A1-B3:dist=(6-2)2+(4-10) 2=52;

A1-C2:dist=(4-2)2+(9-10)2=5; B1-A2:dist=(2-5)2+(5-8)2=18; B1-A3:dist=(8-5)2+(4-8)2=25;

B1-B2:dist=(7-5)2+(5-8)2=13 B1-B3:dist=(6-5)2+(4-8)2=17

B1-C2:dist=(4-5)2+(9-8)2=2 C1-A2:dist=(2-1)2+(5-2)2=10 C1-A3:dist=(8-

1)2+(4-2)2=53 C1-B2:dist=(7-1)2+(5-2)2=45 C1-B3:dist=(6-1)2+(4-

2)2=29 C1-C2:dist=(4-1)2+(9-2)2=58

其他五个结点选择与其最近的质心,三个簇分别为:{B1,C2,B3,B2,A3}

{C1,A2}{A1}计算这三个簇的质心:{B1,C2,B3,B2,A3}的质心为:((8+5+7+6+4)

/5,(4+8+5+4+9)/5)即(6,6);{C1,A2}的质心为:((2+1)/2,(5+2)

/2)即为(1.5,3.5);{A1}的质心为(2,10)。

(a)在第一次循环执行后的三个簇中心分别为(6,6),(1.5,3.5),

(2,10)

重新指派各个对象到离其最近的质心,与上面方面相同,形成的三个簇为

{A3,B1,B2,B3},{C1,A2},{A1,C2}三个簇的质心分别为(6.5,5.25),

(1.5,3.5),(3,9.5);重新指派各个对象到离其最近的质心, 形成的三个簇

为:{A3,B2,B3}{C1,A2} {A1,B1,C2}

三个簇的质心分别为:(7,4.3),(1.5,3.5),(3.67,9);重新指派各个对

象到离其最近的质心, 形成的三个簇为: {A3,B2,B3}{C1,A2} {A1,B1,C2}三

个簇的质心分别为:(7,4.3),(1.5,3.5),(3.67,9);至此质心不发生变

化;

(b)最后三个簇即为{A3,B2,B3}{C1,A2} {A1,B1,C2};

4 考虑下面的由Big-University的学生数据库挖掘的关联规则

major(X,”science”) ⇒ status(X,”undergrad”)

(1)

假定学校的学生人数(即,任务相关的元组数)为5000,其中56%的在校本科

生的专业是科学,%的学生注册本科学位课程,70%的学生主修科学(science)。

(a) 计算规则(1)的支持度和置信度。

(b) 考虑下面的规则

major(X,”biology”) ⇒ status(X,”undergrad”) [17%,80%]

(2)

假定主攻科学的学生30%专业为biology。与规则(1)对比,你认为规则(2)新颖

吗?解释你的结论。

(1)对于形如“A ⇒ B”的关联规则,支持度定义为support(A⇒ B) = 包含

A和B的元组数/元组总数;

规则(1)的支持度计算如下:

主修科学(science) 且未注册本科学位课程的学生人数为:5000*70%-

5000*%*56%=1708;元组总数为5000;

支持度为:1708/5000=34.16%

对于形如“A ⇒ B”的关联规则,置信度定义为:confidence(A⇒ B)= 包含A

和B的元组数/包含的A元组数

规则(1)的置信度计算如下:

主修科学(science) 且未注册本科学位课程的学生人数为:5000*70%-

5000*%*56%=1708;主修科学的人数为:5000*70%=3500

置信度为:1708/3500=48.8%

(2)假定主攻科学的学生30%专业为biology:我们可以猜测下面的规则

major(X,”biology”) ⇒ status(X,”undergrad”)的支持度和置信度应为

34.16%*30%=10.238%,48.8%,而题目中给出的major(X,”biology”) status(X,”undergrad”)的支持度和置信度应为17%,80%,与我们由规则(1)推测出来的相差较大,所以规则(2)并不是冗余的,是新颖的。

下表由雇员数据库的训练数据组成。数据已泛化。例如,年龄“31…35”表示31到35的之间。对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。(老师给的大题第三题中文版)

department status age salary count

sales

sales

sales systems systems systems systems marketing marketing secretary secretary senior

junior

junior

junior

senior

junior

senior

senior

junior

senior

junior

31 (35)

26 (30)

31 (35)

21 (25)

31 (35)

26 (30)

41 (45)

36 (40)

31 (35)

46 (50)

26 (30)

46K...50K

26K...30K

31K...35K

46K...50K

66K...70K

46K...50K

66K...70K

46K...50K

41K...45K

36K...40K

26K...30K

30

40

40

20

5

3

3

10

4

4

6

设status是类标号属性。

(a)你将如何修改基本决策树算法,以便考虑每个广义数据元组 (即,每

一行) 的count?

基本的决策树算法应作如下修改,以考虑到每个广义数据元组(即,每一行) 的count:每个元组的count必须综合考虑属性的选择测量计算(假如信息获取)

考虑count 来决定元组中最普遍的分类。

(b)使用你修改过的算法,构造给定数据的决策树。

(c)给定一个数据元组,它在属性department, age和salary上的值分别为“systems”, “26…30”和“46…50K”。该元组status的朴素贝叶斯分类结果是什么?

依题意,希望分类的元组为X=(department=systems,age=26-30,salary=46k-50k),我们需要最大化P X|Ci P Ci ,i=1,2。每个类的先验概率P Ci 可以根据训练元组计算:

P(status=senior)=52/165=0.315

P(status=junior)=113/165=0.685

为了计算P X|Ci P Ci ,i=1,2,计算下面的条件概率

P(department=systems|status=senior)=8/52=0.154P(department=systems|status=junior)=23/113=0.204

P(age=26-30|status=senior)=1/(52+6)=0.017 //使用拉普拉斯校准

P(status=26-30|status=junior)=49/113=0.434

P(salary=46k-50k|status=senior)=40/52=0.769 P(salary=46k-

50k|status=junior)=23/113=0.204

使用上面的概率得到:

P(X|status=senior)

=P(department=systems|status=senior)*P(age=26-

30|status=senior)*P(salary=46k-50k|status=senior) =0.154*0.017*0.769 =0.002

P(X|status=junior)

=P(department=systems|status=junior)*P(age=26-

30|status=junior)*P(salary=46k-50k|status=junior) =0.204*0.434*0.204 =0.018

为了发现最大化P X|Ci P Ci 的类,计算

P(X|status=senior)P(status=senior)=0.002*0.315=0.00063

P(X|status=junior) P(status=junior)=0.018*0.685=0.01233

因此,对于元组X,朴素贝叶斯分类器预测元组X的类为status=junior。

解一:设元组的各个属性之间相互,所以先求每个属性的类条件概率:

P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;

P(26-30|junior)=(40+3+6)/113=49/113;

P(46K-50K|junior)=(20+3)/113=23/113;

∵ X=(department=system,age=26…30,salary=46K…50K);

∴ P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-50K|junior)

=23×49×23/1133=25921/14427=0.01796;

P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52;

P(26-30|senior)=(0)/53=0;

P(46K-50K|senior)=(30+10)/52=40/52;

∵ X=(department=system,age=26…30,salary=46K…50K);

∴ P(X|senior)=P(systems|senior)P(26-30|senior)P(46K-50K|senior)=0;

∵ P(junior)=113/165=0.68;

∵ P(senior)=52/165=0.32;

P(X|junior)P(junior)=0.01796×0.68=0.0122128>0=0=P(X|senior)P(senior);

所以:朴素贝叶斯分类器将 X 分到 junior 类。

解二:设元组的各属性之间不,其联合概率不能写成份量相乘的形式。

所以已知:X=(department=system,age=26…30,salary=46K…50K),元组总数为:30+40+40+20+5+3+3+10+4+4+6=165。

先验概率:当status=senior 时,元组总数为:30+5+3+10+4=52,P(senior) =52/165=0.32;

当 status=junior 时,元组总数为: 40+40+20+3+4+6=113 ,

P(junior)=113/165=0.68;

因为status=senior 状态没有对应的age=26…30 区间,所以:P(X|senior) =0;

因为 status=junior 状态对应的 partment=systems、age=26…30 区间的总元组

数为:3,所以:P(X|junior)=3/113;

因为:P(X|junior)P(junior)=3/113×113/165=0.018>0=P(X|senior)

P(senior);

所以:朴素贝叶斯分类器将 X 分到 junior 类。

四、简答论述题

三种规范化方法:

(1)最小—最大规范化(min-max规范化):对原始数据进行线性变换,将原始数据映射到一个指定的区间。

(2)z-score规范化(零均值规范化):将某组数据的值基于它的均值和标准差规范化,是其规范化后的均值为0方差为1。

,其中是均值,是标准差

(3)小数定标规范化:通过移动属性A的小数点位置进行规范化。

k-means聚类算法基本原理:将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚集类性能的准则函数达到最优,从而使生成的每个聚集类的紧凑,类间。

操作步骤:

输入:数据集,其中的数据样本只包含描述属性,不包含类别属性。聚类个数K 输出:

(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别

(2)对于X中的任意数据样本xm(1(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点

(4)对于X中的任意数据样本xm(1(5)重复3.4,直到各个聚类不再发生变化为止。即误差平方和准则函数的值达到最优

1、数据仓库的组成?P2

数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统

2、数据挖掘技术对聚类分析的要求有哪几个方面?P131

可伸缩性;处理不同类型属性的能力;发现任意形状聚类的能力;减小对先验知识和用户自定义参数的依赖性;处理噪声数据的能力;可解释性和实用性

3、数据仓库在存储和管理方面的特点与关键技术?P7

数据仓库面对的是大量数据的存储与管理

并行处理

针对决策支持查询的优化

支持分析的查询模式

4、常见的聚类算法可以分为几类?P132

基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法,基于模型的聚类算法等。

5、一个典型的数据仓库系统的组成?P12

数据源、数据存储与管理、OLAP服务器、前端工具与应用

6、数据仓库常见的存储优化方法?P71

表的归并与簇文件;反向规范化,引入冗余;表的物理分割。

7、数据仓库发展演变的5个阶段?P20

以报表为主

以分析为主

以预测模型为主

以运行向导为主以实时数据仓库、自动决策应用为主

8、ID3算法主要存在的缺点?P116

(1)ID3算法在选择根结点和各内部结点中的分枝属性时,使用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。

(2)ID3算法只能对描述属性为离散型属性的数据集构造决策树。

9、简述数据仓库ETL软件的主要功能和对产生数据的目标要求。P30

ETL软件的主要功能:

数据的抽取,数据的转换,数据的加载

对产生数据的目标要求:

详细的、历史的、规范化的、可理解的、即时的、质量可控制的

10、简述分类器设计阶段包含的3个过程。

划分数据集,分类器构造,分类器测试

11、什么是数据清洗?

数据清洗是一种使用模式识别和其他技术,在将原始数据转换和移到数据仓库之前来升级原始数据质量的技术。

13、利用信息包图设计数据仓库概念模型需要确定的三方面内容。P57

确定指标,确定维度,确定类别

14、K-近邻分类方法的操作步骤(包括算法的输入和输出)。P128

15、什么是技术元数据,主要包含的内容?P29

技术元数据是描述关于数据仓库技术细节的数据,应用于开发、管理和维

护DW,包含:

DW结构的描述,如DW的模式、视图、维、层次结构和导出数据的定义,数

据集市的位置和内容等

业务系统、DW和数据集市的体系结构和模式

汇总算法。包括度量和维定义算法,数据粒度、主题领域、聚合、汇总和

预定义的查询和报告。

由操作型业务环境到数据仓库业务环境的映射。包括源数据和他们的内容、数据分割、数据提取、清洗、转换规则和数据刷新规则及安全(用户授权和存

取控制)

16、业务元数据主要包含的内容?P29

业务元数据:从业务角度描述了DW中的数据,提供了介于使用者和实际系统之间的语义层,主要包括:

使用者的业务属于所表达的数据模型、对象名和属性名

访问数据的原则和数据的来源

系统提供的分析方法及公式和报表的信息。

18、数据从集结区加载到数据仓库中的主要方法?P36

●SQL命令(如Insert或Update)

●由DW供应商或第三方提供专门的加载工具

●由DW管理员编写自定义程序

19、数据模型中的基本概念:维,维类别,维属性,粒度P37

●维:人们观察数据的特定角度,是考虑问题的一类属性,如时

间维或产品维

●维类别:也称维分层。即同一维度还可以存在细节程度不同的各

个类别属性(如时间维包括年、季度、月等)●维属性:是维的一个取值,是数据线在某维中位置的描述。●粒度:DW 中数据综合程度高低的一个衡量。粒度低,细节程度高,回答查询的种类多 20、Apriori 算法的基本操作步骤P93★ Apriori 使用一种称作逐层搜索的迭代方法,K 项集用于探索K+1项集。 该方法是基于候选的策略,降低候选数 Apriori 剪枝原则:若任何项集是非频繁的,则其超集必然是非频繁的(不用产生和测试超集) 该原则基于以下支持度的特性: ☜项集的支持度不会超过其子集☜支持度的反单调特性(anti-monotone ):如果一个集合不能通过测试,则它的所有超集也都不能通过相同的测试。 令 k=1 产生长度为1的频繁项集 循环,直到无新的频繁项集产生☜从长度为k 的频繁项集产生长度为k+1的候选频繁项集☟连接步:项集的各项排序,前k-1个项相同☜若候选频繁子集包含长度为k 的非频繁子集,则剪枝☟剪枝步:利用支持度属性原则 ☜扫描数据库,计算每个候选频繁集的支持度☜删除非频繁项, 保留频繁项

定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

解答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA :Grade point aversge)的信息,还有所修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生,而具有低 GPA 的学生的 65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征 值的 条 件。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效)()()(:,Y s X s Y X Y X ≥⇒⊆∀

分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的

数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相

似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可

以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分

层结构,把类似的事件组织在一起。

数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可

能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,

这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和

基于相似性的数据分析

效率比较:Apriori 算法的计算过程必须对数据库作多次扫描,而 FP-增长算法在构造过程中只需扫描一次数据库,再加上初始时为确定支持度递减排序的一次扫描,共计只需两次扫描。由于在 Apriori 算法中的自身连接过程产生候选项集,候选项集产生的计算代价非常高,而 FP-增长算法不需产生任何候选项。

文档

数据仓库习题集

一、选择填空.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A分类B关联C估值D预言数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A数据抽取B数据转换C数据加载D数据稽核数
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top