
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
2、数据挖掘:数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。
3、雪花模型:雪花模式中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图形成了类似雪花的形状。通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。4、OLAP
OLAP是联机分析处理,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。它支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
5、决策树:决策树是将训练集函数表示成树结构,通过它来近似离散值的目标函数。这种树结构是一种有向树,它以训练集的一个属性作节点,这个属性所对应的一个值作边。决策树一般都是自上而下的来生成的。
1、企业面对海量数据,应如何具体实施数据挖掘,使之转换成可行的结果/模型?
首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。
2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。
ETL工具:Ascential DataStage ,IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream
市场上的主流数据仓库存储层软件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA
但是使用过的只有SQL SERVER和数据挖掘工具Analysis Services,而且不大熟悉。
3、请谈一下你对元数据管理在数据仓库中的运用的理解。
元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。
4、数据挖掘对聚类的数据要求是什么?(1)可伸缩性(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)使输入参数的领域知识最小化(5)处理噪声数据的能力(6)对于输入顺序不敏感(7)高维性(8)基于约束的聚类(9)看解释性和可利用性
5、简述Apriori算法的思想,谈谈该算法的应用领域并举例。思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。
在商务、金融、保险等领域皆有应用。
在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori 算法
一、翻译分析题(30分)
1、附件有一名为“Data Mining in Electronic Commerce”的电子文档,请同学们翻译其中的一段。每位同学翻译的段号以大家学号的最后两位为准,如10号同学只需翻译正文的第10段,以此类推。
分类则是一个标准的问题,在数据挖掘和在电子商贸的应用-原则下,适当的方法[随机森林,支持向量机(支持向量机) ,后勤拉索等]有赖于敏锐地在该网站上,该类型的广告都是可以收集到的资料。在亚马逊商务网站中,该推荐系统已进入先前购买和书籍进行视察。
这是一个更丰富的信息来源,通过dictionary.com可以接入(他们只
知道这个词,有人期待在这次会议上,除非他们有库克-网页) 。一些企业获得更多的信息,从数据仓库中,如作为choicepoint公司,这使得他们的专家来建立高度个性化的分类规则。
2、通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请深入分析并给出实例,切忌泛泛而谈)。
随着网络技术和数据库技术的成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。
电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。
由于数据挖掘能带来显著的效益,它在电子商务中(特别是业、零售业和电信业)应用也越来越广泛。
在金融领域,管理者可以通过对客户偿还能力以及信用的分析,进行分类,评出等级。从而可减少放贷的麻木性,提高资金的使用效率。同时还可发现在偿还中起决定作用的主导因素,从而制定相应的金融。更值得一提的是通过对数据的分析还可发现洗黑钱以及其它的犯罪活动。
在零售业,数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。
电信业已经迅速地从单纯的提供市话和长话服务演变为综合电信服务,如语音、传真、寻呼、移动电话、图像、电子邮件、机和WEB数据传输以及其它的数据通信服务。电信、计算机网络、因特网和各种其它方式的通信和计算的融合是的大势所趋。而且随着许多国家对电信业的开放和新型计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量是非常有必要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早发现盗用,为公司减少损失。
1.数据仓库和数据库有何不同 它们有哪些相似之处
答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,
数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据.它用表组织数据,采用ER数据模型.它们都为数据挖掘提供了源数据,都是数据的组合.2.什么是数据挖掘 请举例.数据挖掘:是从大量数据中提取或"挖掘"知识,也就是从存放在数据库,数据仓库或其他信息库中的数据挖掘有趣知识的过程.数据挖掘是可以从数据库中提取有趣的知识规律或高层信息发现的知识,可以用于决策,过程控制,信息管理,查询处理.它不是一种从数据库,统计学和机器学习发展的技术的简单转化,它涉及多学科技术的集成,包括数据库技术,统计学,机器学习,高性能计算模式识别,神经网络,数据可视化,信息检索,图象与信号处理和空间数据分析.随着数据库技术发展,数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为"数据丰富,但信息贫乏所以数据挖掘出来了. 当把数据挖掘看作知识发现过程时,它涉及的步骤为:1)数据清理 2)数据集成 3)数据选择4)数据变换 5)数据挖掘 6)模式评估 7)知识表示1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。3、数据处理通常分成两大类:联机事务处理和联机分析处理。4、分析是指以“维”形式组织起来的数据(数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解数据集中的信息。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。
6、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。1、SQL Server SSAS提供了所有业务数据的同意整合试图,可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。2、数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5个组成部分(包括名称、维度、类别、层次和度量)全面地描述出来。3、数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来。5、确定了数据仓库的粒度模型以后,为提高数据仓库的使用性能,还需要根据拥护需求设计聚合模型。6、在项目实施时,根据事实表的特点和拥护的查询需求,可以选用时间、业务类型、区域和下属组织等多种数据分割类型。7、当维表中的主键在事实表中没有与外键关联时,这样的维称为退化维。它于事实表并无关系,但有时在查询条件(如订单号码、出货单编号等)中需要用到。
8、维度可以根据其变化快慢分为元变化维度、缓慢变化维度和剧烈变化维度三类。
9、数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化索引结构来提高数据存取性能。
10、数据仓库数据库常见的存储优化方法包括表的归并与簇文件、反向规范化引入冗余、表的物理分割(分区)。1、分类的过程包括获取数据、预处理、分类器设计和分类决策。2、分类器设计阶段包含三个过程:划分数据集、分类器构造和分类器测试。
1、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度计算方法。
2、连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。
3、划分聚类方法对数据集进行聚类时包含三个要点:选种某种距离作为数据样本减的相似性度量、选择评价聚类性能的准则函数和选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。
4、层次聚类方法包括凝聚型和分解型两中层次聚类方法。
一、单项选择题(本大题共20小题,每小题1分,共20分)
在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。
1.以下哪一项不是软件危机的表现( )
A.开发的软件可维护性差B.软件极易被盗版
C.经费预算经常被突破D.开发的软件不能满足用户需求
2.以下哪个软件生存周期模型是一种风险驱动的模型( )
A.瀑布模型B.增量模型
C.螺旋模型D.喷泉模型
3.各种需求分析方法都有共同适用的( )
A.分析方法B.说明方法
C.表示方法D.基本原则
4.结构化分析建立功能模型的工具是( )
A.DFDB.判定树/判定表
C.DDD.结构化语言
5.模块中所有成分结合起来完成一项任务,该模块的内聚性是( )
A.功能内聚B.顺序内聚
C.通信内聚D.逻辑内聚
6.系统定义明确之后,应对系统的可行性进行研究,可行性研究应包括( )A.技术可行性、经济可行性、社会可行性 B.经济可行性、安全可行性、操作可行性
C.经济可行性、社会可行性、系统可行性D.经济可行性、实用性、社会可行性
7.以下哪一项对模块耦合性没有影响( )
A.模块间接口的复杂程度
B.调用模块的方式
C.通过接口的信息
D.模块内部各个元素彼此之间的紧密结合程度
8.检查软件产品是否符合需求定义的过程称为( )
A.确认测试B.集成测试
C.系统测试D.单元测试
9.下面关于详细设计的叙述中,错误的是( )
A.程序流程图可以描述结构化程序 B.程序流程图不能描述结构化程序
C.NS图描述的程序一定是结构化的 D.PAD图描述的程序一定是结构化的
10.在整个软件维护阶段所花费的全部工作中,所占比例最大的是( )A.校正性维护B.适应性维护C.完善性维护D.预防性维护
11.以下不属于序言性注释的有( )A.模块设计者B.修改日期C.程序的整体说明D.语句功能
12.集成测试是为了发现( )A.接口错误B.编码错误C.性能、质量不合要求D.功能错误
13.一个只有顺序结构的程序,其环形复杂度是( )A.0B.1C.3D.5
14.结构化程序设计,主要强调的是( )A.程序的执行效率B.模块的内聚C.程序的可理解性D.模块的耦合
15.下面关于文档的叙述,错误的是( )
A.文档是仅用于说明使用软件的操作命令,不包括软件设计和实现细节
B.文档是软件产品的一部分,没有文档的软件就不成为软件
C.高质量文档对于转让、变更、修改、扩充和使用有重要的意义
D.软件文档的编制在软件开发工作中占有突出的地位和相当大的工作量
16.在McCall软件质量度量模型中,面向软件产品操作的质量因素是( )
A.正确性B.可维护性
C.适应性D.互操作性
17.对度量法,叙述错误的是( )
A.度量法是一种基于程序控制流的复杂性度量法
B.度量法以图论为工具,用图的环路数作为程序复杂性的度量值
C.度量法不能区分简单IF语句和循环语句的复杂性
D.度量法对模块间的接口和简单IF语句区分对待
18.在快速原型模型的开发过程中,仅用于代替设计阶段的原型是( )
A.探索型模型B.演化型模型
C.实验型模型D.提交型模型
19.对于构造原型的建议,下面说法错误的是( )
A.暂不考虑错误恢复和处理,但应考虑速度、空间等性能效率方面的要求
B.可降低可靠性和软件质量标准
C.原型界面部分的设计,最好能与最终系统的界面相容
D.根据不同的软件类型和应用领域,可使用不同风格的高级语言来构造原型
20.面向对象开发方法中,将在面向对象技术领域内占主导地位的标准建模语言是( )
A.Booch方法B.Coad方法
C.UML语言D.OMT方法
二、填空题(本大题共10小题,每小题2分,共20分)
请在每小题的空格中填上正确答案。错填、不填均无分。
21.组成软件的两个部分是:________________________。
22.项目开发计划的主要内容包括项目概述、____________、人员组织及分工、交付期限。
23.为了克服软件危机,1968年北大西洋公约组织的工作会议上首先提出了____________的概念。
24.变换型数据流图是由输入、____________和输出三部分组成的。
25.Jackson方法是一种面向____________的开发方法。
26.结构化语言是介于____________和形式语言之间的一种半形式语言。
27.软件产品在交付使用之前一般要经过____________、集成测试、确认测试和系统测试。
28.不采用软件工程的方法开发软件,软件只有程序而无文档,从而导致维护工作困难,这是一种____________的维护。
29.子类自动共享父类数据结构和方法的机制是____________,这是类之间的一种关系。
30.软件版本控制是属于____________的活动内容。
三、名词解释题(本大题共5小题,每小题3分,共15分)
31.软件生存周期
32.需求分析
33.程序设计风格
34.白盒测试
35.基线
四、简答题(本大题共4小题,每小题5分,共20分)
36.简述软件工程过程的含义、目的以及包含的子过程。
37.数据字典的作用是什么,它有哪些条目?
38.简述结构化程序设计方法的基本要点。
39.简述原型的开发步骤。
五、应用题(本大题共2小题,第40小题13分,第41小题12分,共25分)
40.根据下列对某种人寿保险问题的描述画出决策表。
某保险公司的一种人寿保险的参保类型划分原则如下:
(1)如果年龄不满25岁,男性适用保险类型A,女性适用保险类型B。
(2)如果年龄满25岁但不满50岁,已婚男性适用保险类型A,未婚男性适用保险类型B,已婚女性适用保险类型B,未婚女性适用保险类型C。
(3)年龄在50岁以上者,已婚女性适用保险类型B,其余适用保险类型C。
