
数据的基本特征并不包括应用领域广。数据要素的鲜明特点可以概括为:虚拟性、非消耗性、非稀缺性、非均质性、排他性、强外部性、规模价值递增、产权模糊性和衍生性。数据要素不仅包括来自个人衣着、食品、住房、交通、医疗、社会活动的统计和收集,还包括来自平台公司、政府和商业机构提供的服务。通常很难确定数据元素的产权属性。特别是互联网的出现后,使得数据权利的确认更加困难,不利于数据元素的生产和流通。
数据的特征如下:
1. 数据量大(Volume):大数据的起始计量单位是PB(1024TB)、EB(1024PB,约100万TB)或ZB(1024EB,约10亿TB),未来甚至会达到YB(1024ZB)或BB(1024YB)。
2. 数据多样性(Variety):大数据类型繁多,包括网络日志、音频、视频、图片、地理位置等各种结构化、半结构化和非结构化的数据。结构化数据是指存储在数据库里,可以用二维表结构实现表达的数据;非结构化数据是指数码含据结构不规则或不完整,没有预定义的数据,包括所有格式的办公文档、文本、图片、报表、图像、音频信息、视频信息等。
3. 价值密度低(Value):大数据价值密度的高低与数据总量的大小成反比。以视频为例,在连续不断的监控中,有用数据可能仅有一两秒。原始零散、复杂多样,甚至可能有数据噪声和污染的数据需要经历价值“提纯”才能得出信息、获取知识。
4. 数据处理的产生和速度快(Velocity):大数据的智能化和实时性要求越来越高,对处理速度也有极严格的要求,一般要在秒级时间范围内给出分析结果,超出这个时间范围数据就可能失去价值,即大数据的处理要符合“1秒定律”。