
福建电脑
UJIAN COMPUTER
福建电脑
2018年第9期
0.引言
无监督算法只处理“特征”,不操作监督信号。监督和无监
督算法之间的区别没有规范,严格的定义,
因为没有客观的判断来区分监督者提供的值是特征还是目标。通俗地说,无监督学习是指从不需要人为注释样本的分布中抽取信息的大多数
尝试。该术语通常与密度估计相关,
学习从分布中采样,学习从分布中去噪,需要数据分布的流形,
或是将数据中相关的样本聚类[1]。
一个经典的无监督学习任务是找到数据的“最佳”表示。
“最佳”可以是不同的表示,但是一般来说,
是指该表示在比本身表示的信息更简单或更易访问而受到一些惩罚或的情况下,尽可能保存关于x 更多的信息。
有很多方式定义较简单的表示。最常见的三种包括低维表示,稀疏表示,表示。低维表示尝试将x 中的信息尽可能压缩在一个较小的表示中。稀疏表示将数据集嵌入到输入项大多数为零的表示中(Barlow,19;OlshausenandField,1996;Hinto -nandGhahramani ,1997)。稀疏表示通常用于需要增加表示维数的情况,使得大部分为零的表示不会丢失很多信息。这会使得表示的整体结构倾向于将数据分布在表示空间的坐标轴上。独
立表示试图解开数据分布中变动的来源,
使得表示的维度是统计的。
当然这三个标准并非相互排斥的。低维表示通常会产生比原始的高维数据具有较少或较弱依赖关系的元素。这是因为减少表示大小的一种方式是找到并消除冗余。识别并去除更多的冗余使得降维算法在丢失更少信息的同时显现更大的压缩。
1.主成分分析
PCA 算法提供了一种压缩数据的方式。我们也可以将PCA 视为学习数据表示的无监督学习算法。这种表示基于上述简单表示的两个标准。PCA 学习一种比原始输人低维的表示。它也学习了一种元素之间彼此没有线性相关的表示。这是学习表示
中元素统计标准的第一步。要实现完全性,
表示学习算法必须也去掉变量间的非线性关系[2]。
假设有一个m ×n 的设计矩阵X ,数据的均值为零,E [x ]=0。
若非如此,通过预处理步骤所有样本减去均值,
数据可以很容易地中心化。
X 对应的无偏样本协方差矩阵给定如下
(1)
PCA 会找到一个Var [z ]是对角矩阵的表示
(通过线性变换)z=W T x 。
我们看到设计矩阵X 的主成分由X T X 的特征向量给定。
从这个角度,我们有X
(2)
我们会探索主成分分析的另一种推导。主成分也可以通过
奇异值分解得到。
具体地,它们是X 的右奇异向量。为了说明这点,假设W 是奇异值分解X=U ΣW T 的右奇异向量。以W 作为特征向量基,我们可以得到原来的特征向量方程:(3)
SVD 有助于说明PCA 后的Var [z ]是对角的。使用X 的SVD 分解,X 的方差可以表示为
(4)(5)(6)(7)
其中,我们使用U T U=I ,因为根据奇异值的定义矩阵U 是正交的。这表明z 的协方差满足对角的要求:
(8)(9)
(10)
(11)其中,再次使用SVD 的定义有W T W=I 。
以上分析指明当我们通过线性变换W 将数据x 投影到z
时,得到的数据表示的协方差矩阵是对角的(Σ2),即说明z 中的
元素是彼此无关的。
PCA 这种将数据变换为元素之间彼此不相关表示的能力是PCA 的一个重要性质。它是消除数据中未知变动因素的简单表示实例。在PCA 中,这个消除是通过寻找输入空间的一个旋转(由W 确定),使得方差的主坐标和z 相关的新表示空间的基对齐。
虽然相关性是数据元素间依赖关系的一个重要范畴,
但我们对于能够消除特征依赖更复杂形式的表示学习也很有兴趣。对此,我们需要比简单线性变换能做到更多的工具。
2.k-均值聚类
另外一个简单的表示学习算法是k-均值聚类。k-均值聚类算法将训练集分成k 个靠近彼此的不同样本聚类。因此我们可以认为该算法提供了k-维的one-hot 编码向量h 以表示输
入x 。当x 属于聚类i 时,有h i =1,h 的其他项为零[3]。
深度学习无监督学习算法研究
来学伟
(三门峡职业技术学院信息传媒学院河南三门峡472000)
【摘要】本文首先介绍了无监督学习算法的基本原理,然后对主成分进行分析,接下来对k-均值聚类进行了研究。最后对无监督学习算法的研究进行了展望。
【关键词】无监督;k-均值聚类;主成
分DOI:10.16707/j.cnki.fjpc.2018.09.050
102··
F
福建电脑
UJIAN COMPUTER
福建电脑
2018年第9期k-均值聚类提供的one-hot 编码也是一种稀疏表示,因为每个输入的对应表示大部分元素为零。之后,我们会介绍能够
学习更灵活的稀疏表示的一些其他算法
(表示中每个输入x 不只一个非零项)。one-hot 编码是稀疏表示的一个极端实
例,丢失了很多分布式表示的优点。one-hot 编码仍然有一些统计优点(自然地传达了相同聚类中的样本彼此相似的观点),也具有计算上的优势,因为整个表示可以用一个单独的整数表示。
k-均值聚类初始化k 个不同的中心点{μ(1),…,μ(k)},然后迭
代交换两个不同的步骤直到收敛。步骤一,
每个训练样本分配到最近的中心点μ(i)所代表的聚类i 。步骤二,每一个中心点μ(i)更新为聚类i 中所有训练样本x (j)的均值。
关于聚类的一个问题是聚类问题本身是病态的。这是说没有单一的标准去度量聚类的数据对应真实世界有多好。我们可以度量聚类的性质,例如每个聚类的元素到该类中心点的平均欧几里得距离。这使我们可以判断能够多好地从聚类分配中重建训练数据。然而我们不知道聚类的性质多好地对应于真实世界的性质。此外,可能有许多不同的聚类都能很好地对应到现实世界的某些属性。我们可能希望找到和一个特征相关的聚类,但是得到了一个和任务无关的不同的,同样是合理的聚类。
例如,假设我们在包含红色卡车图片,
红色汽车图片,灰色卡车图片和灰色汽车图片的数据集上运行两个聚类算法。如果每个聚类算法聚两类,那么可能一个算法将汽车和卡车各聚一类,另一个根据红色和灰色各聚一类。假设我们还运行了第三个聚
类算法,用来决定类别的数目。这有可能聚成了四类,
红色卡车,红色汽车,灰色卡车和灰色汽车。现在这个新的聚类至少抓住了属性的信息,但是损失掉了相似性信息。红色汽车和灰色汽车在不同的类中,正如红色汽车和灰色卡车也在不同的类中。该聚类算法没有告诉我们灰色汽车比灰色卡车和红色汽车更相似。我们只知道它们是不同的。
这些问题说明了一些我们可能更偏好于分布式表示(相对于。ne-hot 表示而言)的原因。分布式表示可以对每个车辆赋予两个属性—一个表示它颜色,一个表示它是汽车还是卡车。目前仍然不清楚什么是最优的分布式表示(学习算法如何知道我
们关心的两个属性是颜色和是否汽车或卡车,
而不是制造商和车龄),但是多个属性减少了算法去猜我们关心哪一个属性的负
担,允许我们通过比较很多属性而非测试一个单一属性来细粒度地度量相似性。
3.总结
无监督学习是机器学习的一个重要分支,其在机器学习、
数据挖掘、生物医学大数据分析、
数据科学等领域有着重要地位。近年在无监督学习领域取得了很多的研究成果,
包括次胜者受罚竞争学习算法、K-means 学习算法、K-medoids 学习算
法、密度学习算法、谱图聚类算法;特别是在在基因选择、疾病诊断中的得到了广泛的应用[4]。
参考文献:
[1]韩杰;倪志伟;巨东东;倪丽萍.基于朴素贝叶斯和无监督学习的数据流分类算法[C ].天津,第十二届(2017)中国管理学年会论文集,2017.11[2]古险峰;冯学晓.基于深度无监督学习的图像分类算法[J ].平顶山学院学报,2018年4月.
[3]《DeepLearning 》(深度学习)中文版,Holeung ‘sblog-CSDN 博客,网络
(http://blog.csdn.net )[4]谢娟英,无监督学习方法及其应用.电子工业出版社.2016年11月
作者简介:
来学伟(1981-),男,汉族,工程硕士,河南灵宝人,讲师,主要从事计算机软件开发与研究。E-mail:294666656@qq.com.
一跳已经不同,实现了分流,满足了用户需求,办公流量主走电
信线路,业务流量主走联通线路,如图2所示。
中断电信线路,在R4上分别测试前往外联单位办公及业务网段的流量路径,所有流量路径都为R4-R3-R2-R5-R6。在R3上的路由表可以查看到前往外联单位的办公和业务网段的下一跳完全相同,证明了方案具备流量路径冗余的功能。
4结束语
以金融行业流量需求为例模拟了一个现实的网络,通过访问控制列表、路由策略、浮动静态路由等工具,结合OSPF 路由协议关于路由选路规则的灵活应用,解决了业务流量与办公流量分离和路径冗余的难题。经过测试,此网络运行稳定,业务和办公流量能够自动进行分流。当广域网链路故障时,流量路径自动切换,实现冗余备份。本文为该网络提供了关键代码,可为金融行业网络运维人员及广大网络爱好者提供有价值的参考。
参考文献:
[1]王丽娜,刘炎.基于GNS3的冗余网络仿真[J ].实验室研究与探索,2013(8):55-59.
[2]程永青.浅谈OSPF 协议的基本原理及其仿真[J ].电脑知识与技术,2017(36):30-31.
[3]cisco 路由策略[OL ].http://blog.51cto.com/misliang/12235.
作者简介:
章丞(1983-),男,福建龙岩人,助教,硕士研究生,主要研究方向:云计算技术、信息安全技术(ccie50020@qq.com )
图3在R3上查看路由表(电信线路中断
)
(上接第129页)
103··
