最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

大学论文:大数据质量评价体系的构建研究

来源:动视网 责编:小OO 时间:2025-09-29 03:03:31
文档

大学论文:大数据质量评价体系的构建研究

大数据质量评价体系的构建研究摘要大数据时代到来了。我国的国情决定了集中掌握着资金、人力、等资源优势的部门当仁不让的成了推进大数据发展的主体,也成了经现代化信息技术关联分析后发现新知识、创造新价值的研究客体,其数据质量更是重中之重,关系到大数据最终的运算结果。而质量评价体系的建立有助于确定数据质量标准化,规范的大数据的科学性管理,引导新的契合大数据技术手段的信息基础建设具有重要意义。本文从现有的数据质量评价体系出发,结合大数据的四大特性,将17个与大数据质量相关的二级指标按照数据
推荐度:
导读大数据质量评价体系的构建研究摘要大数据时代到来了。我国的国情决定了集中掌握着资金、人力、等资源优势的部门当仁不让的成了推进大数据发展的主体,也成了经现代化信息技术关联分析后发现新知识、创造新价值的研究客体,其数据质量更是重中之重,关系到大数据最终的运算结果。而质量评价体系的建立有助于确定数据质量标准化,规范的大数据的科学性管理,引导新的契合大数据技术手段的信息基础建设具有重要意义。本文从现有的数据质量评价体系出发,结合大数据的四大特性,将17个与大数据质量相关的二级指标按照数据
大数据质量评价体系的构建研究

摘 要

大数据时代到来了。我国的国情决定了集中掌握着资金、人力、等资源优势的部门当仁不让的成了推进大数据发展的主体,也成了经现代化信息技术关联分析后发现新知识、创造新价值的研究客体,其数据质量更是重中之重,关系到大数据最终的运算结果。而质量评价体系的建立有助于确定数据质量标准化,规范的大数据的科学性管理,引导新的契合大数据技术手段的信息基础建设具有重要意义。

本文从现有的数据质量评价体系出发,结合大数据的四大特性,将17个与大数据质量相关的二级指标按照数据源质量、数据规模质量、数据结构质量、数据时效质量、数据价值密度质量这些维度进行划分,确定了五个维度。并对每个二级指标进行了系统的梳理,确立了从部门、受访者、制度性因素三个方面建立的具体指标,共计有51个指标。然后对给出的各数据质量评价指标的满意度打分进行主成分分析,剔除了13个指标,完成对该质量评价体系的修正和完善。

通过上述研究,本论文得出了以下结论:在大数据质量评价中,数据的数据源质量依旧十分关键,是大数据质量的重中之重;数据的时效性质量在大数据特征质量中最为重要,这体现了大数据对运算高速性的要求。

关键词:大数据  数据  质量评价体系  

Research on the construction of large data quality evaluation system

ZhangYang      Directed by  QiuShuangyue   

Abstract

 Big data era,in the situation of our country have capital, manpower, policy resources of government departments have become the main body to promote the development of big data, has become the analysis of Modern Information Technology Association after the discovery of new knowledge and create new value of the research object, the data quality is the priority among priorities, in relation to the final result of big data. And the establishment of the quality evaluation system is helpful to determine the quality of the data standardization, the scientific management of the government's big data, and to guide the new information technology infrastructure is important.

This paper from the data quality evaluation system of the existing four, combined with the characteristics of big data, the 17 related government data quality level two indexes according to the data source, data quality, data quality scale structure quality, data quality, data aging value density quality of these dimensions are divided and identified five dimensions. And each of the two levels of the index system, the establishment of the government departments, the respondents, the institutional factors of the three aspects of the establishment of specific indicators, a total of 51 indicators. After the initial establishment of the system, the application of the evaluation system for large data users of the government. In this paper, the principal component analysis of the satisfaction score of each data quality evaluation index is given, and 13 indexes are eliminated.

Through the above research, this paper draws the following conclusions: in the evaluation of the quality of government data, government data quality is still very important, is the priority among priorities of government big data; timeliness of quality data in the government big data quality is the most important feature, which reflects the requirements of the government of big data high speed.

KEY WORDS:Big data  Government data  Quality evaluation system

前 言

随着第三次工业的推进,人们进入了信息化时代。在信息化时代里数据就是力量,数据就是财富已经不是什么神话,而是深入人心的共识。近几年,随着新社交媒体的普及,以及存储设备的升级换代使得数据的存储与应用发生了翻天覆地的变化,大数据技术应运而生。然而,在这个数据爆炸的时代里,数据质量确实良莠不齐,为了找到评价一个数据集质量的有效方法,许多人都对大数据质量评价体系做了研究。但是,在大数据层次上,难以拿出相对完善的质量评价体系对大数据进行有效的评估,为了弥补这样的缺憾,本文对大数据质量评价体系进行了研究。[1]

本研究的进程共分为三个阶段:第一个阶段,在论文数据平台和学术期刊上查找相关研究成果,并将这些成果中包含的不同部分进行归类,初步了解了大数据质量评价体系研究的现状。总结归纳出了研究通常构建的13指标以及研究通常采用的主成分分析或因子分析的方法。第二个阶段,根据前人的成果,再结合自己掌握的知识,构建相对合理的评价指标体系,并根据指标体系制作调查问卷,然后进行问卷调查,收集数据得到第一手的资料。收集数据之后对数据进行分析、研究,并找出成因,思考对策。第三个阶段,将成果写成论文。

本文共分为五部分:第一部分是对大数据概念的总结与大数据质量评价体系目前研究的简单概括;第二部分首先阐述了目前的研究现状中在指标体系构建中存在的指标过多与角度单一的问题,并相对的提出了解决这些问题的办法,也就是三个级别指标并行,三级指标作为直接变量的解决办法;其次第二部分还阐明了数据量化的必要性以及数据量化的李克特量表法。第三部分介绍了大数据质量评价体系构建中常用的两种降维方法即因子分析法与主成分分析法,并论证了运用主成分分析法的益处。第四部分首先论证了调查得到数据的代表性,然后用主成分分析法提取了6个主成分,再计算各个变量的得分情况。第五部分根据第四部分的成果发现了在大数据安全性和相关性以及大数据来源质量所存在的问题并提出了一些建议。

1相关理论

1.1大数据的概念

上世纪50年代欧洲数学家香农在“通讯的数学理论”中提出的信息定义:“信息是用来消除随机不定性的东西”。在传统理论下数据是信息的基础,而我们现在所提到的数据是一个综合范畴,有传统理论中的数据(统计数据等),更多的是数据化技术存在的结果形态与信息记录的统称,即所谓的大数据。[2]

数据种类多,既包括文本、图像、视频等半结构和非结构化数据,也包括现有的结构化数据,像统计数据。我们可以把大数据的特征总结为4V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)、Value(价值巨大但密度低)并且具有实时、多元的信息化特点;而统计数据类型单一,主要特征是结构化、体量小、标准化、价值密度高以及周期化数值。目前大数据已成为中国统计数据来源的“第二轨”,为了更加全面有效的提升数据质量,统计数据在此略显简单。相比统计数据质量,大数据向纵深拓展了其内涵。[3]

目前,作为一种标准化数据的统计数据正在经历着大数据的冲击,统计数据质量即是统计学研究的起点,也是统计实践的目标,而数据价值最大化是统计数据质量的核心

英国当代数学家托马斯·克伦普在《数字人类学》中提及人是数字的本质。揭示数字后面信息与现实世界的关系是统计数据的内涵,而实现数据信息的效率及价值是数据质量的本质。就当今社会信息的价值效率与数据泛滥造成有效信息稀缺导致可用数据质量和价值得不到有效利用,这主要原因是因为来自于大数据推动下数据质量内涵信息的分布复杂的演变。因此如何判断统计数据质量以及对其的有效利用使我们应该考虑的问题,而本文对大数据质量评价体系的构建研究以大数据质量为例作简要分析。[4]

1.2现有的大数据质量评价体系

虽然大数据是这几年才发展起来的新兴学科,但是对于大数据的研究却是汗牛充栋,其中对于大数据质量评价体系的研究也是初具规模。然而,在学术界并没有关于大数据质量评价体系统一的标准。尽管如此,在统计学界仍然有大家都公认的一些指标,这些指标在研究中经常被使用。这些指标主要包括:准确性、时效性、相关性、客观性、可衔接性、完整性、可理解性、透明性、可操作性、可取的性、可解释性、效益型、安全性等12个指标。[5]

例如:UN下属的经济委员会就曾经提出了包含11个指标变量的数据质量评价体系,这11个指标是:可获得性、相关性、真实性、准确性、连续性、时效性、可用性、完整性、复杂性、清晰性、安全性。

      在国内,蔡莉等人主导的研究中提出了包含5个指标的大数据质量评价体系,它们分别是:可获得性、可靠性、可用性、相关性、可表达性。

2大数据质量评价指标体系的构建

所谓大数据质量评价指标体系就是一个可以很好地描述大数据质量的模型,利用这个模型可以比较方便的比较两个数据集的质量。大数据质量评价指标体系研究,研究对象是大数据,关键是质量评价,目标是指标体系构建,只有将体系搭建好,才能有明确的目标,才能更好的完成分析、论证工作。[6]

2.1大数据质量评价指标的确立和指标体系的构成[7]

在之前的研究当中,人们对数据质量的评价体系的描述基本上是从准确性、时效性、相关性、客观性、可衔接性、完整性、可理解性、透明性、可操作性、可取的性、可解释性、效益型、安全性等方面展开的。

这样做固然有它的好处,首先这些指标基本上已经覆盖了的质量评价体系所要考虑的全部方面,其次这些指标简洁明了没有歧义,但是有时候指标分类过于细化,反而会分散人们的注意力,使得一些有用的东西不能很好的展现出来。为了解决这个问题,同时也为了取长补短,本研究同样选取以上13个指标,只不过将这13个指标作为二级指标,然后进一步归类得到了5个一级指标。这样不仅保证了指标对数据质量描述的全面性,也保证指标数量设置的合理性,和反映问题的集中性。得到的一二级指标划分表如下:

表1  一二级指标的划分表

一级指标二级指标
大数据来源质量准确性 客观性 可取得性 可解释性 透明性
可理解性 安全性
大数据规模质量完整性
大数据排列质量可衔接性
大数据时效质量时效性 可操作性
大数据价值质量相关性 效益性
之前的研究大都是直接将这13指标作为变量来研究,选取的角度要么是部门,要么是受访者,这样使得研究结论趋于片面,研究的成果应用面窄。为了避免出现这些不愿意看到的结果,本研究进一步将二级指标从部门,受访者,条件等三个因素细化,使得得到的这39个三级指标成为直接研究的变量。得到的最终质量评价指标体系表如下:

表2质量评价体系表

第一级指标第二级指标第三级指标变量
   大数据来源质量准确性1由处理产生的一般性误差
2由受访者主观意图造成的数据误差
3考核的机制差异对数据造成的误差
客观性1数据的类目指标是否可以真实描述受访者
2受访者是否愿意提供真实数据
3考核的机制对数据客观性的要求
可取得 性1数据从部门获取是否具有的便利性
2数据从受访者获取是否具有便利性
3获取数据的流程控制
可解释性1部门对掌握数据的补充与说明
2受访者掌握数据来源的可靠性
3部门对掌握数据的披露与解释意愿
透明性1掌握数据的公开性
2受访者披露相关数据的意愿
3政务公开的进展程度
可理解性1数据类目指标设置是否合理性
2受访者提供数据的内容是否具有明确性
3的机制对于数据揭示内容的明确性要求
安全性1应对数据泄露的所采取的防范措施
2受访者防止数据泄露所采取的防范措施
3数据保存的安全机制
大数据规模质量完整性1部门的数据类目满足大数据需求
2受访者提供满足大数据需求的数据类目
3对大数据类目的指导要求
大数据排列质量可衔接性1各部门数据结构的衔接程度
2受访者提供不同结构数据的能力
3对处理不同结构数据能力的指导要求
大数据时效质量时效性1部门处理大数据的速度
2受访者的数据更新速度
3大数据处理的时效机制
可操作性1部门处理大数据的复杂程度
2受访者的提供的数据结构
3数据设计制度
大数据价值质量相关性1大数据的内容与数据使用者兴趣是否有关联性。
2受访者数据类目的设置是否具有合理性。
3大数据设计制度
效益性1部大数据保存、处理成本
2受访者所提供的数据的净价值
3的大数据效益管理机制是否完善
2.2大数据质量评价指标的量化

在大数据质量评价指标体系确定下来以后,就要根据这39个指标变量设计调查问卷,附录中列出了本研究的调查问卷,接下来亟待解决的就是数据的量化问题。因为毕竟本研究是定量分析,所以数据的数量化是必要的。在spss软件处理的过程中,最终也都要归结为对数值型数据的处理.[8]

由调查问卷可以看出,每个问题下面都有五个选项他们分别是:“非常不满意”、“不满意”、“一般”、“满意”、“非常满意”,因此可以利用spss软件中值标签功能建立一个数据汇总表,使得数字“1”对应“非常不满意”,数字“2”对应“不满意”,数字“3”对应“一般”,数字“4”对应“满意”,数字“5”对应“非常满意”。也就是运用了5级李克特量表,这样就很好的解决了数据的量化问题。

3研究方法的选取

3.1 因子分析法概述[9]

3.1.1因子分析法的定义

因子分析是一种数据简化技术,是通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假象变量表示出数据的结构。其主要思路是降维之后简化数据结构;目的就是将分散的大数据信息整合成数量较少的因子,通过简化后的因子,对变量进行分类,这样既做到了降维,也把数据的损失降到最小。本文就是首先对用户对待公开数据的满意度着手展开的三级指标,并由此得出的结论。

3.1.2因子分析法的步骤

因子分析的核心问题是因子变量的构造和怎样对因子变量命名和解释;其常用基本步骤如下:

首先是需要确认所要分析的原变量是否适合做因子分析。

其次是如何构造因子变量。

再次是利用因子旋转增加因子变量的可解释性。

最后计算出各个因子变量的得分。

因子分析的计算过程是:

(1)将原始数据标准化,以消除变量间在数量级和量纲上的不同;

(2)求出标准化数据的相关矩阵;

(3)求出相关矩阵的特征向量、特征值;

(4)计算方差贡献率、累积方差贡献率;

(5)确定因子;

(6)因子旋转;

(7)利用原变量指标的线性组合求得各因子得分;

(8)综合得分;

(9)得分排序

3.2 主成分分析法概述[10]

3.2.1主成分分析法的定义

主成分分析是一种通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量的统计方法。首先由K.皮尔森对非随机变量引入,后由H.霍特林将此方法推广到随机变量。而又叫做主分量分析的主成分分析法是一种数学变换的方法,利用降维的思想,把多指标转化为少数几个综合指标,且所含信息不互相重复,通过线性变换把给定的一组相关变量转换成一组不相关的变量,并案方差大小递减排列,在变换中保持总方差不变,第一主成分有最大方差,第二主成分其次,以此类推。

3.2.2主成分分析法的一般分析步骤

主成分分析就是希望把相关变量变成彼此的变量,用较少变量解释大量的原变量, 即主成分,用来解释综合性指标。其主要分析步骤如下:

(1)写出原始数据的矩阵形式;

(2)对矩阵标准化,使得均值为零;

(3)求出矩阵的协方差阵;

(4)按照特征值从大到小排列对应特征向量,取前K个组成新的矩阵;

(5)通过计算得到降维后的数据;

(6)计算每个特征根的贡献率并解释特征根及其对应特征向量的含义;

3.3 因子分析法和主成分分析法的比较

(1)虽然两者都是表示成线性组合,前者的表示对象是各个变量,后者表示对象则是主成分;

(2)侧重点不同,前者重点解释各变量之间的协方差,后者则重点解释各变量的总方差;

(3)因子分析有前提假设:各个共同因子之间、特殊因子之间、共同因子和特殊因子之间都不相关;

3.4 主成分分析法在本研究中优势[11]

(1)主成分分析法与因子分析法相比较所具有的一般优势

首先主成分分析比因子分析更为客观,因为主成分分析是将主成分表示为原变量的线性组合,而因子分析需用假设的公共因子来解释相关矩阵的内部关系;也因为主成分分析合成得分量是彼此的,也就消除了指标数据之间相关的影响,而因子分析允许因子间相关,其提供的变异信息可能是重复的。

其次,主成分分析比因子分析更准确,因子分析中的因子和总因子得分是估计值,而主成分分析中的因子和总因子得分是实际值。

(2)主成分分析在大数据质量评价体系研究中的独特优势

主成分分析可以更好的完成大数据质量评价体系构建的一系列工作:

1)主成分分析可以消除原始变量间的相关影响

2)主成分分析在综合评价时可以确定权重

3)主成分分析可以减少评价的指标数量,使得评价体系更加集中的反映问题

4大数据质量评价指标体系的主成分分析

4.1 数据的来源

 本研究的数据来自于问卷调查。问卷设计遵从了处理便捷、题量适当、层次合理、主题明确的一般原则,从源头上保证了数据的质量。此次研究共发放问卷210份回收有效问卷为200份,受访者情况汇总表如下:

表3受访者基本情况统计表

统计特征分类样本数所占比例
年龄20--25岁

5427%
25--30岁

8241%
30--35岁

2010%
35--40岁

2613%
40岁以上

189%
学科12 6%
3115.5%
4422%
168%
工商管理8844%
其他94.5%
从受访者的年龄构成看,25-30岁的人数最多,占41%,20-25岁的人数较多,有27%,  这两个年龄段是接触大数据最多的人群,共占了68%,而在40岁以上的有18人,仅占9%。从受访者学科构成来看,经济管理类人数最多,占44%,工科、理科分别占22%和15.5%,而文科仅有6%的比例。总的来说问卷调查的人群比较具有代表性,对于此项研究来说是科学合理的。

4.4 主成分的选取

运用主成分分析法必须提取主成分,运用spss软件以特征值大于1为提取条件进行分析得到的解释的总方差表如下:

表4解释的总方差

成份初始特征值提取平方和载入
合计方差的 %累积 %合计方差的 %累积 %
113.83436.40636.4067.38219.42619.426
24.24711.17747.5836.79417.87937.350
31.8584.052.4733.39.58746.2
41.7364.56957.0422.4556.46153.353
51.2733.35060.3922.2585.94259.295
61.0492.76163.1531.9763.85763.153
      
390.0000.000100.000
提取方法:主成份分析。
由上表可以看出,提取的主成分个数为六个,这六个主成分占的总的方差比例为63.153%,基本上包含了所有变量的大部分信息。其中,第一个主成分的方差贡献率最高为36.406%,第二个主成分的方差贡献率与第一个主成分相比差距比较大,为11.177%,从第三主成分起,其方差贡献率都降到5%以下。

4.3 主成分得分与权

通过总方差贡献率得到进行主成分分析的合理性以及六个主成分以后就要想办法求出主成分得分然后再求出各个变量的权重。主成分分析运行后得到如下的主成分得分系数表:

表5主成分得分系数矩阵

成份
123456
第1题.024-.023-.023.113-.160.012
第2题.060.016.003-.058-.063.237
第3题-.076.123.035-.1.030.150
第4题-.117-.053-.029-.065.124-.098
第5题.013.204.103-.030-.212-.122
第6题.122-.108-.233-.002-.096-.017
第7题.003.033-.139.144-.016.151
第8题.054-.097.102.111.117-.083
第9题-.074.093.208-.043-.036-.080
第10题-.137-.167-.007.075.117.123
第11题.166.002-.046.091-.130.095
第12题.140-.144.069-.113.013.191
第13题.009-.050.024-.154-.007-.116
第14题-.012-.098.194.1-.049-.009
第15题.065.040-.116.129-.112.150
第16题-.078.183.004.104-.118.165
第17题.058.145-.149.141.134-.116
第18题.057.173.109.188.198-.073
第19题.109-.044-.194.019.194.018
第20题-.111-.082.051.129.201.232
第21题-.016.078-.225.065.084.017
第22题.119.167.034-.222.119.087
第23题.183-.042-.073-.010.137.208
第24题.071.079.209.127.021.191
第25题.057.139-.043.134-.034-.020
第26题.021.158.112.099.304-.063
第27题.155.172-.023.079-.042.057
第28题-.016-.102.096.137.049.111
第29题-.021.109-.087.115.063-.036
第30题.081.148.045-.222.131.114
第31题.108.039.124.018-.225.037
第32题.025-.081.130.205-.076.049
第33题-.075.086-.155-.009-.121-.044
第34题.043-.028.075-.179-.011.193
第35题.108.000.022.033-.037.106
第36题-.0.059.068-.037.077.044
第37题-.220.097-.096-.009-.034.177
第38题-.225.050-.078-.007-.015.201
第39题-.200.065.022.055-.075.084
提取方法 :主成份。
用标准化后的原始数据矩阵乘以主成分得分系数矩阵就得到了主成分得分矩阵,再将同一变量的所有分的主成分得分加总就得到每个变量主成分得分。汇总的各个变量的主成分得分表如下:

表6主成分得分表

第三级指标变量  主成分得分
(第1题)由处理产生的一般性误差2.512
(第2题)由受访者主观意图造成的数据误差1.493
(第3题)考核的机制差异对数据造成的误差2.042
(第4题)数据的类目指标是否可以真实描述受访者1.8
(第5题)受访者是否愿意提供真实数据2.379
(第6题)考核的机制对数据客观性的要求0.857
(第7题)数据从部门获取是否具有的便利性2.280
(第8题)数据从受访者获取是否具有便利性1.439
(第9题)获取数据的流程控制1.108
(第10题)部门对掌握数据的补充与说明2.256
(第11题)受访者掌握数据来源的可靠性0.998
(第12题)部门对掌握数据的披露与解释意愿0.6
(第13题)掌握数据的公开性1.574
(第14题)受访者披露相关数据的意愿1.427
(第15题)政务公开的进展程度1.248
(第16题)数据类目指标设置是否合理性0.865
(第17题)受访者提供数据的内容是否具有明确性2.067
(第18题)的机制对于数据揭示内容的明确性要求1.382
(第19题)应对数据泄露的所采取的防范措施1.574
(第20题)受访者防止数据泄露所采取的防范措施1.159
(第21题)数据保存的安全机制0.793
(第22题)部门的数据类目满足大数据需求1.774
(第23题)受访者提供满足大数据需求的数据类目1.368
(第24题)对大数据类目的指导要求1.532
(第25题)各部门数据结构的衔接程度2.006
(第26题)受访者提供不同结构数据的能力1.371
(第27题)对处理不同结构数据能力的指导要求1.587
(第28题)部门处理大数据的速度1.976
(第29题)受访者的数据更新速度1.574
(第30题)大数据处理的时效机制1.886
(第31题)部门处理大数据的复杂程度1.598
(第32题)受访者的提供的数据结构2.109
(第33题)数据设计制度1.473
(第34题)大数据的内容与数据使用者兴趣是否有关联性。1.498
(第35题)受访者数据类目的设置是否具有合理性。1.395
(第36题)大数据设计制度1.482
(第37题)部大数据保存、处理成本1.223
(第38题)受访者所提供的数据的净价值2.179
(第39题)的大数据效益管理机制是否完善1.636
 主成分得分表57.091
利用公式:

权重=单个变量的主成分得分/各个变量总的主成分得分

得到以下权重汇总表:

表7权重汇总表

第三级指标变量  权重%
(第1题)由处理产生的一般性误差2.8 
(第2题)由受访者主观意图造成的数据误差1.639 
(第3题)考核的机制差异对数据造成的误差3.577 
(第4题)数据的类目指标是否可以真实描述受访者3.265 
(第5题)受访者是否愿意提供真实数据4.167 
(第6题)考核的机制对数据客观性的要求1.501 
(第7题)数据从部门获取是否具有的便利性2.242 
(第8题)数据从受访者获取是否具有便利性2.521 
(第9题)获取数据的流程控制1.941 
(第10题)部门对掌握数据的补充与说明2.200 
(第11题)受访者掌握数据来源的可靠性3.500 
(第12题)部门对掌握数据的披露与解释意愿1.163 
(第13题)掌握数据的公开性2.757 
(第14题)受访者披露相关数据的意愿2.500 
(第15题)政务公开的进展程度2.186 
(第16题)数据类目指标设置是否合理性1.515 
(第17题)受访者提供数据的内容是否具有明确性3.621 
(第18题)的机制对于数据揭示内容的明确性要求2.421 
(第19题)应对数据泄露的所采取的防范措施2.757 
(第20题)受访者防止数据泄露所采取的防范措施2.030 
(第21题)数据保存的安全机制1.3 
(第22题)部门的数据类目满足大数据需求3.107 
(第23题)受访者提供满足大数据需求的数据类目2.396 
(第24题)对大数据类目的指导要求2.683 
(第25题)各部门数据结构的衔接程度3.514 
(第26题)受访者提供不同结构数据的能力2.401 
(第27题)对处理不同结构数据能力的指导要求1.028 
(第28题)部门处理大数据的速度3.461 
(第29题)受访者的数据更新速度2.757 
(第30题)大数据处理的时效机制3.303 
(第31题)部门处理大数据的复杂程度2.799 
(第32题)受访者的提供的数据结构3.694 
(第33题)数据设计制度2.580 
(第34题)大数据的内容与数据使用者兴趣是否有关联性0.872 
(第35题)受访者数据类目的设置是否具有合理性2.443 
(第36题)大数据设计制度2.596 
(第37题)部大数据保存、处理成本2.142 
(第38题)受访者所提供的数据的净价值3.817 
(第39题)的大数据效益管理机制是否完善2.866 
4.4 各变量最终得分

求得权重以后就要求各个变量的最终得分,利用的公式是:

变量的最终得分=权重*各个变量的平均得分

得到排序以后的最终得分升序汇总表如下:

表8最终得分升序汇总表

第三级指标变量  最终

得分

(第34题)大数据的内容与数据使用者兴趣是否有关联性3.419
(第27题)对处理不同结构数据能力的指导要求4.257
(第12题)部门对掌握数据的披露与解释意愿5.036
(第21题)数据保存的安全机制5.869
(第6题)考核的机制对数据客观性的要求5.937
(第16题)数据类目指标设置是否合理性6.25
(第2题)由受访者主观意图造成的数据误差6.714
(第9题)获取数据的流程控制7.909
(第37题)部大数据保存、处理成本8.462
(第20题)受访者防止数据泄露所采取的防范措施8.516
(第10题)部门对掌握数据的补充与说明8.657
(第15题)政务公开的进展程度8.941
(第7题)数据从部门获取是否具有的便利性9.327
(第23题)受访者提供满足大数据需求的数据类目9.776
(第26题)受访者提供不同结构数据的能力9.906
(第18题)的机制对于数据揭示内容的明确性要求9.973
(第35题)受访者数据类目的设置是否具有合理性10.079
(第14题)受访者披露相关数据的意愿10.398
(第36题)大数据设计制度10.422
(第33题)数据设计制度10.54
(第8题)数据从受访者获取是否具有便利性10.548
(第1题)由处理产生的一般性误差10.819
(第39题)的大数据效益管理机制是否完善10.832
(第24题)对大数据类目的指导要求11.002
(第19题)应对数据泄露的所采取的防范措施11.125
(第29题)受访者的数据更新速度11.455
(第13题)掌握数据的公开性11.621
(第31题)部门处理大数据的复杂程度11.714
(第22题)部门的数据类目满足大数据需求13.097
(第30题)大数据处理的时效机制13.28
(第4题)数据的类目指标是否可以真实描述受访者13.501
(第11题)受访者掌握数据来源的可靠性14.331
(第28题)部门处理大数据的速度14.381
(第25题)各部门数据结构的衔接程度14.582
(第3题)考核的机制差异对数据造成的误差14.683
(第17题)受访者提供数据的内容是否具有明确性15.170
(第38题)受访者所提供的数据的净价值15.458
(第32题)受访者的提供的数据结构15.571
(第5题)受访者是否愿意提供真实数据17.085
将二级指标下属的三级指标得分加总得到二级指标得分升序汇总表如下:

表9二级指标得分升序汇总表

二级指标二级指标得分
12相关性23.921
7安全性25.509
3可取得性27.784
4可解释性28.024
9可衔接性28.744
5透明性30.959
6可理解性31.393
1准确性32.215
8完整性33.876
13效益性34.751
2客观性36.522
11可操作性37.824
10时效性39.116
将一级指标下属的二级指标得分加总然后除以所包含的二级指标数就得到一级指标得分汇总表如下:

表10一级指标得分升序汇总表

一级指标一级指标得分
数据结构质量28.744
数据价值密度质量29.336
数据源质量30.344
数据规模质量33.876
数据时效质量38.470
5 结论与建议

5.1 结果分析与结论

(1)由表9可以看出:

1)在二级指标中,相关性得分最低,也即在二级指标中人们满意程度最低的就是相关性。产生种现象是由于大数据本身不刻意追求满足求几个人或少数几个群体的诉求而是注重整体的效果。[12]

2)在二级指标中,安全性得分也较低,也即在二级指标中人们对数据的安全性也较为不满。随着电脑的普及,许多原来存放在纸质介质上的数据转而存到电子介质上,但电子设备的安全性并不容乐观,数据泄露时有发生、网络攻击甚嚣尘上,尤其是希拉里败选事件与最近的“想哭”病毒事件使得人们的对数据安全性的关注度上升,而满意度下降。

2)由表10可以看出:

1)在一级指标中,数据结构质量得分最低,也就是说人们部门的数据的结构的满意程度最低。这与在大数据发展过程中更追求量少追求质不无关系。

2)在一级指标中,包好许多二级指标的数据源质量得分并不靠前,而数据时效质量却排在第一位。这充分说明人们对数据来源的重视,因为一个好的数据必须有一个科学的来源。这也说明政务公开与网络平台的建设成果显著,数据的实效质量已经不断提升。

5.2建议

根据以上分析我提出几点提高大数据质量建议:

(1)努力建立点对点的数据服务平台,使得掌握的大数据更好的服务于成千上万的特色鲜明的人。

(2)要从国家层面上重视数据安全,建立数据安全人才培养计划。

(3)要管控好数据来源,从源头解决数据质量低下的问题,同时在存储数据时选择合理化的结构。[13]

参考文献

[1]华雅琴.大数据时代商业银行信贷业务的机遇和挑战[J].时代金融.2015-05-31

[2]于艳华,宋美娜.大数据[J].中兴通讯技术.2013-01

[3]宋立荣,李思经.从数据质量到信息质量的发展[J].情报科学.2010-02:182-186

[4]韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学.2008-02

[5]魏凯.对大数据国家战略的几点考虑[J].大数据.2015-01: 115-121

[6]S Ghemawat,H Gobioff,S Leung.File and storage systems:The Google File System[J].Acm Symposium on Operating Systems Principles Bolton Landing.2003

[7]F Chang, J Dean,S Ghemawat.Bigtable:a distributed storage system for structured data[J].Acm Transactions on Computer Systems.2008

[8]周芝芬,乐嘉锦.消除数据仓库中相似重复记录的方法[A].中国计算机学会数据库专业委员会.第二十届全国数据库学术会议论文集(技术报告篇)[C].中国计算机学会数据库专业委员会.2003

[9]林靖生,郭茜.医疗行业数据集成中的数据质量问题研究[J].中国数字医学.2009-01:70-72

[10]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报.2014- 01:246-258

[11]杨单.基于图像差分特征的彩色图像差分预测与信息提取算法研究[J].计算机科学.2015-01:308-311+316

[12]费仕忆.Hadoop大数据平台与传统数据仓库的协作研究[D].东华大学.2014

[13]宗威,吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报(社会科学版).2013- 05: 38-43.

附录

调查问卷:大数据质量评价体系

1、 您对部门操作造成的一般性数据误差造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 很满意 

2、 您对受访者主观对数据的修改、删减等处理造成的误差造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

3、您对考核机制对数据的误差造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

4、您对部门的数据类目是否可以真实描述调查对象造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

5、您对受访者提供真实数据的意愿造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

6、 您对考核机制对数据客观性要求造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

7、 您对数据从各级部门获取的便利程度造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

8、 您对数据从受访者获取的便利程度造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

9、您对对数据获取的机制流程造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

10、 您对部门对数据类目设置的合理性造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

11、您对受访者数据来源的真实性造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

12、您对数据的披露解释意愿造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

13、您对部门的数据公开性造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

14、您对受访者披露相关数据的意愿造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

15、您对政务公开的进展程度影响的大数据质量表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

16、您对部门对数据的补充说明造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

17、您对受访者提供数据的内容明确性造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

18、您对机制关于数据揭示的内容明确性要求造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

19、您对部门在数据防止泄露的防范措施造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

20、您对受访者防止数据泄漏的防范措施造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

21、您对数据的安全机制造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

22、您对部门的数据类目满足大数据需求造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

23、您对受访者提供满足大数据需求的数据类目影响的大数据质量表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

24、您对对大数据类目的指导要求造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

25、您对各部门数据结构的衔接程度造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

26、您对受访者提供不同结构数据的能力造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

27、您对对处理不同结构数据能力的指导要求造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

28、您对部门大数据的处理速度造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

29、您对受访者的数据更新速度造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

30、您对大数据处理的时效机制造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

31、您对部门处理大数据的复杂程度造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

32、您对受访者的提供的数据结构造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

33、您对大数据的评估机制造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

34、您对部门大数据内容与解决问题的关联性造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

35、您对受访者数据类目的设置合理性造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

36、您对数据设计制度造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

37、您对部门大数据的处理成本造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

38、您对受访者提供的数据价值造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

39、您对大数据的效益管理机制造成的大数据质量的影响表示 (单选题 *必答)

 ○ 很不满意 

 ○ 不满意 

 ○ 一般 

 ○ 满意 

 ○ 非常满意 

致 谢

四年的时光匆匆而逝,还没来得急好好体味这美好的青春时光,我们就已经毕业,又要踏上人生的另一个旅程.在这个毕业论文即将完成的时刻,我唯一想做的就是向我的母校致予深深的敬意.感谢她四年来提供给我优良的学习、生活环境;更要感谢她四年来提供给我一流的师资力量.

感谢我的指导老师邱双月对我的关心和教导.在论文选题、成稿和修改的全过程中,邱双月老师一直给予我帮助和支持.她用她的专业知识,在我没有思路的时候,启发我得出新想法、新思路;在我粗心大意的时候,提醒我在哪里出了错误.邱老师,认真负责的态度和广博知识让我非常的钦佩;邱老师优良的作风和追求真理的品质让我终生难忘,受益匪浅.

最后,我要感谢我身边的同学、朋友,是你们的关心照顾让我的大学别样精彩,感谢你们!

文档

大学论文:大数据质量评价体系的构建研究

大数据质量评价体系的构建研究摘要大数据时代到来了。我国的国情决定了集中掌握着资金、人力、等资源优势的部门当仁不让的成了推进大数据发展的主体,也成了经现代化信息技术关联分析后发现新知识、创造新价值的研究客体,其数据质量更是重中之重,关系到大数据最终的运算结果。而质量评价体系的建立有助于确定数据质量标准化,规范的大数据的科学性管理,引导新的契合大数据技术手段的信息基础建设具有重要意义。本文从现有的数据质量评价体系出发,结合大数据的四大特性,将17个与大数据质量相关的二级指标按照数据
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top