最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

数据仓库与数据挖掘技术考试试题

来源:动视网 责编:小OO 时间:2025-09-26 04:33:17
文档

数据仓库与数据挖掘技术考试试题

中国矿业大学银川学院期末考试试题2010至2011学年第2学期考试科目数据仓库与数据挖掘学分2年级2008系机电动力与信息工程系专业计算机一、填空题(15分)1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。3.OLAP技术分析过程中,分析操作包括切片、切块、钻取、旋转等。4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,
推荐度:
导读中国矿业大学银川学院期末考试试题2010至2011学年第2学期考试科目数据仓库与数据挖掘学分2年级2008系机电动力与信息工程系专业计算机一、填空题(15分)1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。3.OLAP技术分析过程中,分析操作包括切片、切块、钻取、旋转等。4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,
中国矿业大学银川学院期末考试试题

2010至2011学年第2学期

考试科目   数据仓库与数据挖掘     学分  2  年级 2008 

系  机电动力与信息工程系   专业    计算机   

一、填空题(15分)

1.数据仓库的特点分别是 面向主题 、 集成 、 相对稳定 、反映历史变化。

2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为 技术 元数据和 业务 元数据两类。

3.OLAP技术分析过程中,分析操作包括  切片  、  切块  、 钻取 、 旋转 等。

4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射 ”架构,其中 企业级数据仓库 是中心,源数据系统和数据集市在输入和输出范围的两端。

5.ODS实际上是一个集成的、  面向主题的 、 可更新的 、 当前值的 、 企业级的 、详细的数据库,也叫运营数据存储。

二、多项选择题(10分)

6.在数据挖掘的分析方法中,直接数据挖掘包括(  ACD )

A 分类         B 关联          C 估值          D  预言

7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)

A 数据抽取     B 数据转换      C 数据加载      D 数据稽核

8.数据分类的评价准则包括(  ABCD  )

A 精确度     B 查全率和查准率    C F-Measure    D 几何均值

9.层次聚类方法包括(   BC   )

A 划分聚类方法  B 凝聚型层次聚类方法  C 分解型层次聚类方法   D 基于密度聚类方法

10.贝叶斯网络由两部分组成,分别是(  A D  )

A 网络结构    B 先验概率     C 后验概率    D 条件概率表

三、计算题(30分)

11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定supmin=40%,confmin=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)

事务项目事务项目
    T1

    T2                    

    T3

面包、果冻、花生酱

面包、花生酱

面包、牛奶、花生酱

    T4

    T5

啤酒、面包

啤酒、牛奶

解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于supmin的项集,形成1-频繁集L1,如下表所示:

项集C1      

支持度   项集L1

  支持度

{面包}      

{花生酱}         

{牛奶}                

{啤酒}             

4/5

3/5

2/5

2/5

{面包}             

{花生酱}                                          

{牛奶}                         

{啤酒}              

      4/5

      3/5

      2/5

      2/5

(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于supmin的项集,形成2-频繁集L2,如下表所示:

项集C2

  支持度

   项集L2

支持度
{面包、花生酱}                     

3/5{面包、花生酱}                     

  3/5

至此,所有频繁集都被找到,算法结束,

所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> confmin

     confidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> confmin

所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

12.给定以下数据集(2 ,4,10,12,15,3,21),进行K-Means聚类,设定聚类数为2个,相似度按照欧式距离计算。(15分)

解:(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知k=2,则可设m1=2,m2=4:

(2)对于X中的任意数据样本xm(1当m2=4时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1,17。

最小距离是1或者-1将该元素放入m1=2的聚类中,则该聚类为(2,3),另一个聚类m2=4为(4,10,12,15,21)。

(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=2.5,m2=12:

(4)对于X中的任意数据样本xm(1当m2=12时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-10,-9,-8,2,3,9。

最小距离是1.5将该元素放入m1=2.5的聚类中,则该聚类为(2,3,4),另一个聚类m2=12为(10,12,15,21)。

(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点:m1=3, m2=14.5:

(6)对于X中的任意数据样本xm(1当m2=14.5时,样本(2 ,4,10,12,15,3,21)距离该代表点的距离分别为-12.58,-11.5,-10.5,-4.5,-2.5,0.5,6.5。

最小距离是0.5将该元素放入m1=3的聚类中,则该聚类为(2,3,4),另一个聚类m2=14.5为(10,12,15,21)。

至此,各个聚类不再发生变化为止,即误差平方和准则函数的值达到最优。

四.设计题(45分)

13.按照题目给定的3个数据文件,任选一个建立数据流图,要求至少包括记录选项、字段选项、图形结点各一个。任选关联规则Apriori算法、贝叶斯网络、K-Means聚类、决策树C5.0(C4.5)算法、神经网络中的一个进行挖掘,并给出数据流图。(10分)

14.对以上数据流图中使用的每个结点做一简短说明。(10分)

选择:age>25.

过滤:过滤后的字段。Region,tenure,age,marital,churn.

类型:

15.给出以上数据流图中模型的执行结果(生成模型完全展开后的数据),对于执行结果太多的,可节选部分结果。(10分)

16.对以上模型生成的结果做一简要的分析,包括算法采用的基本原理、数学模型、算法步骤等。(15分)

答:k-means聚类算法基本原理:将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚集类性能的准则函数达到最优,从而使生成的每个聚集类的紧凑,类间。

操作步骤:

输入:数据集,其中的数据样本只包含描述属性,不包含类别属性。聚类个数K

输出:

(1)从数据集X中随机地选择k个数据样本作为聚类的出示代表点,每一个代表点表示一个类别

(2)对于X中的任意数据样本xm(1(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k个均值代表点

(4)对于X中的任意数据样本xm(1(5)重复3.4,直到各个聚类不再发生变化为止。即误差平方和准则函数的值达到最优

文档

数据仓库与数据挖掘技术考试试题

中国矿业大学银川学院期末考试试题2010至2011学年第2学期考试科目数据仓库与数据挖掘学分2年级2008系机电动力与信息工程系专业计算机一、填空题(15分)1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。3.OLAP技术分析过程中,分析操作包括切片、切块、钻取、旋转等。4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top