
需求:
过去的网络服务提供商主要用传统的网络流量监控方法,就是采用离线分析,即先保存,在对其进行数据挖掘等处理。但实际中的一些需求是:用户要知道当前网络中的流量现状。进而根据当前状况采取可以提高服务性能的有利措施或者对有害行为进行预警等。而要在监控对象是实时、大量流数据的前提下,实现以上的需求,传统的方法是不合适的。
有类似流数据应用需求的例子是很多的:
从通信领域的电话记录数据流到各类传感器的检测数据流,从金融领域的证券数据流到卫星传回的图像数据流都是应用实例。
正式因为这些实际应用背景,对流数据的研究便随之产生。流数据这个概念,是98年,由几个学者在一篇叫ComputingOnStream的论文中首次提出。此后,
“流数据”就成为了VLDB,SIGMOD等几个大型数据库会议中的高频词。
由此我们看到它的产生历程:
应用需求—>正式提出(98)—>研究热点(至今)
1.2流数据应用特点
1.2.1.数据处理模型
从一附图来看,用户是从操作性数据库中获得结果,要么就是从以DW为基础生成的ODS数据库中获得结果。我们知道ods数据库中存储就是概要数据结构的一些集合。简单回顾下,概要数据结构的概念:它是一种聚集形式的信息,代表了多个操作型记录。如果DW中记录了的一个顾客的交易记录,那么ods数据库中的概要记录是描绘这个的顾客的消费档次,支付习惯等等一些经过聚集,分析,处理后的结果。
这里流数据处理模型和传统模型虽然概念是相同的,但是他们又有很大的区别:
来自与DW,是离线状态生成的,非实时;来自于实时的数据流。
ods数据库存储与磁盘或磁带;流数据中的概要数据集存储在常驻内存中。
1.2.2.流数据应用中处理的是实时到达的数据序列。
意思就是说:这些应用随时间的变化不断有新数据产生可以看作时序 数据。
1.2.3.数据到达次序不受应用系统控制。
Eg:企业可以设置要进入db/dw的连锁店a、连锁店b的数据次序,可 能是出于某种优化考虑。但我们不可以改变张三,李四连续的分别的 买了100手股票a,1000手股票b的顺序。
1.2.4.数据规模大,理论上是无限的
Eg:例如用于环境检测的传感器来说,在环境中一直采集数据。外部 环境参数的值是无限的,它随着时间数据量不断增加。
1.2.5.对数据的查询是连续的。
Eg:看一个股票软件的交易界面就可以发现,用户虽然没有再次查询 这支股票的价格但是会发现它是实时更新的。这个查询是连续的。 传统的查询处理:用户主动,系统被动
流数据的查询处理:系统主动,用户被动
1.2.6查询是实时的,可以接受近似的查询结果。
以上就是流数据应用的特点,由此我们可以归纳得到流数据的形式化定义:
是指一组数据项的序列,x1,x2.......xn........,这些数据项按下标递增的顺序排列。他们按照固定的顺序,以连续,快速,随时间变化的,可能是不可预测和无限的方式到达。
2.1 DSMS体系结构
现在流数据的应用特点以及定义已经介绍完了。接下来,要讲的是具体应用中,使用的DSMS体系结构的一般模型。
它与普通dbms的区别
由前面讲的流数据应用中的处理模型特点和DSMS体系结构,我们可以看到,他们都有一个非常重要的模块:概要数据结构。
下面将要介绍的就是概要结构的维护
2.2概要数据结构的维护
2.2.1Why:首先考虑一个问题就是why要使用概要数据结构。
这是由于概要数据结构实质上是也是一种有效管理大量数据的方法。加之流数据有,实时、大量、源源不断的进入应用系统,这样的特性。要进行分析处理或者DM,首先要解决的就是要提供一个平台。所以结合概要数据结构本身特点,它成为了DSMS中的重要组成部分。流数据与概要数据结构的特点结合。
知道了为什么,下面介绍创建概要数据结构的一些基本概念,其中后面要讲在线的流数据挖掘实质上也是对概要数据结构的维护。
大多流数据应用中,概要数据结构是满足界标模型的,就是从一个时间戳到当前时间戳的数据。那么基于界标的模型的概要数据结构,就要求这个结构能近似模拟整个数据集合的特征。所以我们肯定要有一个度量标准,这里主要运用概率方面的理论来作为基础。
2.2.2创建理论基础:
Marknov;chebyshev;hoeffding;chernoff
前两个不等式描述了随机变量偏离其数学期望的概率。(大数定理)
Hoeffding相对前面的不等式它对误差概率的更为严格。后边要讲的流数据上DM中的分类器的构造就要利用hoeffding边界的概念。
Chernoff在某些应用中chernoff不等式还优于hoeffding的误差。
以上的四个不等式就是创建概要数据结构理论基础
2.2.3创建方法:
直方图,hash,抽样,小波等 基于界标的
指数直方图,基本窗口,链式抽样 基于非界标模型下的滑动 窗口
直方图思想是:将一个大数据集划分为过个连续的桶,也就是小数据集,每个桶都有一个数字来代表其特征。
其中等宽直方图:这种直方图中最简单。它把整个值域分成等宽长度的桶。Greenwald算法一种一趟扫描的确定性算法,它需要空间并且可以保证精度。 N为数据总数,为误差要求。
它包含了两个主要操作拆分和合并,还有两个参数上下限阈值。
