作者简介:(1982 ),男,陕西蒲城人,硕士研究生,主要研究方向为通信与信息系统(li p eng 46558@yeah.n et);蔡晓霞(1965 ),女,安徽淮南人,教授,硕士,主要研究方向为通信与信息系统的科研和教学工作;陈红(1965 ),女,安徽东至人,副教授,硕士,主要研究方向为通信和信息系统的科研和教学工作;王欣(1986 ),男,安徽蚌埠人,硕士研究生,主要研究方向为卫星通信对抗.
一种基于母函数的JPEG2000隐写分析方法
李 鹏,蔡晓霞,陈 红,王 欣
(电子工程学院,合肥230037)
摘 要:针对J PEG2000图像小波系数一般统计特征在BP C S JP EG2000隐写前后变化不明显的问题,提出了一种基于小波系数母函数的隐写分析方法。通过对J PEG2000图像三级小波系数低频子带进行主分量提取,计算出相应的母函数,分析它在隐写前后的变化,提取出九个母函数值作为特征向量输入到SV M 分类器中。实验证明在嵌入比例为30%以上可得到80%以上的真阳性率,同时假阳性率很低。关键词:隐写分析;J PEG2000;母函数;分类器
中图分类号:TP391 文献标志码:A 文章编号:1001 3695(2010)07 2668 02do:i 10.3969/.j i ssn .1001 3695.2010.07.076
Steganal ysi s m et hodo l ogy based on generati ng f uncti on for JPEG2000
L I P eng ,C A I X iao x i a ,C H E N H ong ,WANG X i n
(E lectron ic E ng ineeri ng In stit u t e ,H e fei 230037,Ch i na )
Abstract :Res ponse to t he change of t he comm on statisti c character of D WT coefficients i n J PEG2000m i age w as unconspi cuous ,t h is paper proposed a i nfor m ation steganalysism et hodology based on generating function ofDWT coeffi cients .The al go rith m extracted the princi pal co m ponen t of l ow frequency patch of the 3th DWT coeffici ents i n J PEG2000m i age ,and calcula ted t he generati ng function .Accord i ng t o anal yzi ng t he change of t he generati ng f unction bef ore and after e m beddi ng ,extracted n i ne val ue of the generati ng f uncti on as an ei genvector and i nput it to S VM classifier .The experm i ental resu lts have de monstra ted t he correct rate to detect t he hidi ngm essage ach i eves more 80%above the e mbedding rate 30%.Key words :steganal ysis ;J PEG2000;generati ng f unction ;classifier
0 引言
近些年,随着信息科学的发展和互联网的普及,数字多媒体如文档、图像、声音和视频被广泛运用。以这些数字多媒体为载体的隐写术成为信息安全的重要手段,尤其是以图像为载体的隐写术层出不穷,目前在因特网上已经发布了200多种隐写软件,而且很多是免费的,因而很容易被犯罪分子所利用,这对国家、企业和社会来说都是一种潜在的威胁。因此作为隐写术的对抗技术 隐写分析成了信息安全领域的一个重要研究课题。隐写分析是指对隐写术的检测和攻击技术。其目的是检测隐密信息的存在性、估算隐密信息的长度以至提取隐密信息。J PEG 2000编码标准[1]作为一种新的图像压缩标准,正在得到学者和商家的研究与应用。在现实生活中出现了以J PEG 2000格式图像为载体的隐写术
[2~4]
。其中N oda 等人
[2]
把BPCS 隐写术与JPEG 2000图像结合起来,提出了第一个以J PEG2000图像的隐写术,其在高压缩图像中嵌入秘密信息,得到良好的图像质量。另一方面,隐写分析方法很多[5~7],但针对基于J PEG 2000格式图像的隐写术的隐写分析研究,还鲜有学者涉足。
本文基于JPEG 2000图像小波系数一般统计特征在隐写前后变化不明显的问题,在深入分析小波系数主分量统计特征的基础上提出了一种基于母函数的JPE G 2000隐写分析方法。
1 隐写术对母函数的影响
1 1 母函数的计算
在离散随机变量中,非负整数值随机变量(即取值为0,1,2, 的随机变量)占有很重要的地位,如二项分布、几何分布、泊松分布等都是取非负整数值的。
定义 若随机变量 取非负整数值,其相应的分布率为
0 1 2 p 0 p 1 p 2
设G (s )=!∀
k =0
p k s k ,则称G (s)为随机变量 的母函数。
由于!∀
k =0
p k =1,由幂级数的收敛性知道G (s)至少在|s |#1时
一致收敛且绝对收敛。母函数对于任何整数随机变量均存在。1 2 隐写术对小波系数的母函数的影响
以JPEG 2000图像为载体的信息隐写算法大多选择将秘密信息嵌入到量化后的小波系数中,来达到信息隐写的目的。如果在设计隐写算法时没有考虑到小波系数的分布特征,则必然导致隐写后图像的小波系数分布发生变化。
当前以JPEG 2000图像为载体的信息隐写算法汲取了以J PEG 图像隐写算法的不足,在嵌入秘密信息到小波系数时,采取了必要的措施,保持了小波系数的分布特征,预防了基于小波系数统计特征的攻击。本文研究了BPCS JPEG2000隐写前
第27卷第7期2010年7月 计算机应用研究Application R esearc h of C o m puters V o.l 27N o .7
Ju.l 2010
后小波系数的变化。以L ena 图像为例,取三级小波系数低频
子带作为分析对象,研究隐写前后九个母函数值,如表1所示。
表1 隐写前后低频小波系数母函数值对比
s 0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
隐写前2.4414e1691.1418e1191.2973e0905.3729e0705.3633e0546.6671e0418.9542e0305.1397e0203.6149e011隐写后
2.4414e1691.1418e1191.2973e0905.3729e0705.3633e0546.6671e0418.9542e0305.1398e020
3.6156e011
从表1中可以看出,隐写前后低频小波系数的母函数值基本上相同,也就是说明了BPCS J PEG 2000隐写算法对低频小波系数母函数的影响很少,因而本文提出对小波系数的主分量进行母函数值分析。图1是隐写前后主分量的变
化图。
从图1中可以看出,小波系数主分量的母函数在隐写前后的变化很大,可见小波系数主分量上母函数可以作为判断图像中是否含有秘密信息。因而,本文采用小波系数主分量上的母函数作为特征向量。
2 基于母函数的JPEG2000隐写分析方法
2 1 小波系数主分量
为实现对JPEG 2000图像小波系数的主分量分析[8],必须先把数据的协方差矩阵对角化。随机试验的自协方差函数为
C (i ,j)=
1N 2!N k =1!N
l =1
{(x i (k,l)-x i 0)(x j (k ,l)-x j 0)}(1)
其中:x i (k,l)为像素点(k,l)在i 频带的值;x i 0为i 频带的平均值;x j (k,l)为像素点(k ,l)在j 频带的值;x j 0为频带的平均值。
因为JPEG 2000彩色图像有R 、G 、B 三个频带,所以变量i 和j 只有三种取值,协方差矩阵为3∃3矩阵。主分量分析的步骤如下:
a )计算三个频带的均值,记为(R 0,G 0,B 0);b)在每个相应的频带上减去平均值;
c )计算自相关矩阵C (i ,j);
d )找出矩阵C (i ,j )的特征值并降序排列,用相应的特征向量作为行,得到特征向量矩阵A ;
e )用矩阵A 变换原数据分布,用y =A x 把每个三维向量
x =R
G B
变换为y =
P 1P 2P 3
,即y i =!i a k i x i 。2 2 基于主分量母函数的分析算法
对JPEG 2000图像三级小波系数低频子带提取主分量成分,计算出母函数,s 取0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9九个数,通过母函数计算公式算出九个母函数值组成的九维向量作为特征向量。
对载体图像和载密图像的小波系数提取主分量的母函数得到的特征向量作为训练集,以待测图像的小波系数提取主分量的母函数得到的特征向量作为检测量,构造基于S VM 的分类器[9]。S VM 的理论基础是统计学习理论,其基本思想是构造出一个最优超平面,使得超平面与不同类样本集之间的距离最大,从而达到最大的泛化能力,即使训练误差最小化。本文
使用两类线性可分情况下的S VM 。
设训练样本集为(x i ,y i ),i =1, ,n,x %R d ,y %
{+1,
-1},d 维空间中线性判别函数的一般形式为g (x )=w ∃x +b ,分类面方程为w ∃x +b =0。为了使所求得的最优分类面能够对所有样本正确分类,且分类间隔最大,则对于样本点(x i ,y i )应满足以下两个条件:
m i n 1/2&w 2&
y i [(w ∃x i )+b]-1∋0;i =1,2, ,n
(2)
这是一个二次凸规划问题,由于目标函数和约束条件都是凸的,根据最优化理论,这一问题存在惟一全局最小解。应用Lagrange 乘子法并满足KKT 条件(K arush kuhn Tucher):
i {y i [w ∃x i +b]-1}=0
(3)
最后得到SVM 的分类器具有以下形式:
f (x )=s i gn [!
n i =1 *i
y i K (x,x i )+b *]
(4)
其中: i ∋0是拉格朗日乘子,K (x,x i )表示核函数。本文在此选用径向基核函数:
K (x,x i )=exp (- &x -x i &2), >0
(5)
由于径向基函数具有较好的分类特性,选它作为SVM 分类器的内核函数。其中涉及到两个参数的选取:a )惩罚因子 ,当值选取较大时,强调训练数据点的相称性,而当选取的值较小时,注重的是模型复杂度的降低;b )径向基函数中的!2,其值的大小对应滤波平滑性的强弱。在实验中可采取网格搜索法选择这两个参数的最优值。
3 仿真与分析
仿真选取了200幅JPEG 2000载体图像,秘密信息采用随机生成的二进制数据,采用BPCS JPEG 2000隐写术对300载体图像进行信息隐写,得到200幅载密图像。总共400幅图像,选取300幅图像(在载体图像中选取15000幅,在载密图像中选取相应的150幅)组成训练样本,剩下的100幅图像作为测试样本。通过把300幅训练样本的特征向量输入到S VM 分类器中进行训练,得到训练好的分类器,然后把测试样本的特征向量输入到分类器中,得到判断结果:+1代表载密图像;-1代表载体图像。
表2是在嵌入率从20%~100%得到的真阳性率变化图,真阳性率是测试样本中被检测出载密图像个数占总载密图像的比例。
表2 在不同嵌入比例下平均检测真假阳性率
%
嵌入率2030
40
50
60
70
80
90
100真阳性率77.68188.792.495.698.499.8100100假阳性率
2.6
2.8
2.7
2.8
2.9
3.0
3.3
3.5
3.4
从表2中可以看出,在嵌入率为30%以上,真阳性率可以达到80%以上,同时,通过实验得到载体图像误判为载密图像
的概率(也就是假阳性率或虚警率)大概在3.3%左右。可见本文方法在保持对载密图像高检测率的条件下能保持较低的虚警率。
4 结束语
本文提出了一种基于母函数的JPEG 2000隐写分析方法。该方法针对JPEG 2000图像三级小波系数子带的主分量的母函数分布特征在BPCS J PEG2000隐写术前后的变化,运用SVM 分类器对载体图像和载密图像小波系数主分量的特征向量进行分类,通过实验在不同秘密信息嵌入比例下可以得到较高的真阳性率。(下转第2673页)
(2669(第7期李 鹏,等:一种基于母函数的J PEG2000隐写分析方法
聚类质量评估指标(c l uster qualit y i ndex)在总体上反映了聚类的质量好坏,是聚类结果选取的一个综合性指标。聚类质量评估指标从聚类内容上评估了聚类类别的质量。
5 主导漏洞类型分析
聚类完成后并不意味着对漏洞数据分析完毕,更重要的是对聚类的结果进行分析。在大多数情况下聚类结果不像人们想象中那样,能够按照需要将对象区分,满足人们认识事物的需要。聚类分析的结果还不能满足分类的惟一性、完备性要求,它总是忠实地反映了所给的实例的特征。换句话讲,特征明显的实例在聚类过程中凸现出来,而不管它是否能够成为单独的一类,因此对聚类结果的细致分析是十分必要的。
漏洞聚类结果是对软件漏洞信息初步的分类,由于聚类结果缺少分类的完备性、互斥性,聚类的结果还远不能作为软件漏洞分类的依据,但聚类结果大致反映了漏洞中突出类别,如缓冲区溢出、跨站攻击漏洞、文件包含漏洞和目录遍历漏洞等,这些常见的漏洞类型在漏洞成因描述、漏洞发生位置、漏洞利用方式和漏洞利用结果方面具有明显的特征。
主导漏洞类型是指漏洞类型中,涵盖了大多数漏洞的典型漏洞类型,也是漏洞分类中的主体类型。主导漏洞类型涵盖了绝大多数的漏洞,这些漏洞具有明显的特征,因而在聚类分析时能够聚集成类,同时主导的漏洞类型也是造成网络安全的主要因素,这类漏洞分布广泛,漏洞利用的方法也相对简单。主导漏洞类型选择必须满足一定的标准。
主导漏洞类型选择必须既符合聚类定义的覆盖率,又能满足主导度要求。如同前面提到的,覆盖率表示该漏洞描述是否涵盖漏洞各个方面,因此,选择主导漏洞类型首先满足小于最大领域覆盖率(m ax dom a i n descri p t o r cove rage),这样才能显示出主导漏洞类型的独特性。其次漏洞类型的主导度必须大于最小的领域主导度(m i n descr i ptor do m i nance),主导度越高表示了该类的漏洞描述越集中、特征越鲜明。
主导漏洞类型包含的漏洞数量应该占据了漏洞实例总数的大部分,主导漏洞类型包含的漏洞数目也必须达到一定的阈值(m i n c l uster size)。
综合上述三点,主导漏洞类型必须满足以下条件:
a)doma i n descr i pt or coverage c)c l uste r size>m i n c l uster size。 通过设置漏洞聚类质量指标大小,选择有代表性的漏洞类别。设置最大领域描述覆盖率、最小描述主导度和最小聚类相对大小分别是0.36、0.015和0.003,对NVD进行聚类分析后,选择符合条件的主导漏洞类型有45类,占聚类总数(100)的45%,共包含了23870个漏洞实例,占据总漏洞数(38299)的62.33%,因此对主导漏洞类型的分析主要集中在这45%的漏洞分析上。 漏洞类型树分层次展示了漏洞聚类分析的结果。在聚类的结果中,典型的漏洞共有45类,它们组成目前漏洞数据库中绝大多数的漏洞类型。具体对45类漏洞进行区分,可以分为特殊字符处理缺陷、程序逻辑缺陷、配置缺陷和其他未指明漏洞四大类。主导漏洞类型树结构如图4所示 。 另外对45类漏洞描述分析,发现漏洞描述信息具有相似的模式,相对固定的描述模式中容易抽取出漏洞的描述信息,一般的描述模式是)(漏洞类型)i n(存在漏洞的软件)a l lo w***(利用位置)user to(权限变化)v ia/by(利用方法)∗。相对固定的漏洞描述模式有利于提取漏洞的细节信息,如漏洞类型、漏洞存在软件的位置、利用方法、权限方法等。 6 结束语 受到软件漏洞信息发布策略的,大量的软件漏洞细节信息被隐藏。本文使用了文本聚类的方法对NVD漏洞类别和潜在的描述模式挖掘,并且对挖掘的结果有针对性地分析,提出了主导漏洞类型及其选择标准,使得对单个漏洞的人工分析转移到对漏洞类别的分析上。 参考文献: [1]赵亭.计算机漏洞数据挖掘关键技术研究[D].合肥:电子工程 学院,2008. [2]张毓敏,谢康林.基于SO M算法实现的文本聚类[J].计算机工 程,2005,30(1):75 76. [3]胡影,郑康锋,杨义先.利用NVD漏洞数据库挖掘网络攻击效 果[J].计算机科学,2008,35(3):55 57. [4]单松魏,冯是聪,李晓明.几种典型特征选取方法在中文网页分类 上的效果比较[J].计算机工程与应用,2003,39(22):146 148. [5]D I As DE M W or kb ench2.0[EB/OL].http://www.hypkno w sys. org/. (上接第2669页) 参考文献: [1]TAUB M AN D S,M ARCELLI N M W.J PEG2000图像压缩基础、标 准和实践[M].魏江力,柏正尧,等译.北京:电子工业出版社, 2004. [2]NODA H,SPAULD I NG J,SH I RAZIM N,et a l.App licati on of b it p l ane deco m pos iti on stegan ography t o J PEG2000encoded i m ages[J]. I EEE Signa l Process ing Lett ers,2002,9(12)410 413. [3]S U P C,KUO C C J.S teganography i n J PEG2000co m pressed i m ages [J].I EEE T rans on Consumer Elec t ronI cs,2003,49(4):824 832. [4]NODA H,TSUKAM I ZU Y,NII M I M.J PEG2000steganography wh ich preserves h istogra m s ofD W T coeffici en ts[J].I EI CE T rans I n f or mation and Sys t e m s,2007,E90 D(4):783 786. [5]程小艳,孙星明,秦姣华.新的利用相邻像素相关性的盲隐写分 析算法研究[J].计算机应用研究,2007,24(10):128 130. [6]HANG Tao,PI NG X i ji an.Reliab l e det ecti on of spati alLSB steganog raphybased on d iferen ce h ist ogra m[J].Journal of Soft ware,2004, 15(1):151 158. [7]KER A D.I m proved det ecti on ofLSB steganography i n grayscal e i m a ges[C]//Proc of the6t h I n for m ati on H i d i ng W orks h op.Berli n: Spri nger V erlag,2004:97 115. [8]GONZ ALEZ R C.数字图像处理[M].赖剑煌,冯国灿,等译.北 京:机械工业出版社,2005. [9]边肇祺.模式识别[M].2版.北京:清华大学出版社,2000. ( 2673 ( 第7期唐和平,等:漏洞数据库的文本聚类分析