1.1Web挖掘的定义
Web挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、机器学习、模式识别、人工智能、统计学、计算机网络技术、信息学等多个领域。Web挖掘定义:Web挖掘是指从大量非结构化、异构的Web信息资源中发现有效的、新颖的、潜在可用的及最终可理解的知识的非平凡过程。1.2Web挖掘任务的分类
Web挖掘技术分为三大类:Web内容挖掘、Web访问信息挖掘和Web结构挖掘。2Web文本挖掘技术
Web文本挖掘技术如图1所示。
2.1分词技术
对文档进行特征提取前,要先进行文本信息的预处目前主要有基于词库的分词算法和无词典的分词技术两种。
(1)
基于词库的分词算法包括正向最大匹配、正向最小匹配、逆向匹配及逐词遍历匹配法等。这类算法的特点是易于实现,设计简单;但由于分词的正确性很大程度上取决于所建的词库,因此基于词库的分词技术对于歧义和未登录词的切分具有很大的困难。
(2)
基于无词典的分词技术的基本思想是:其于词频的统计,将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大,在频率超过某个预先设定的阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。2.2文本的特征表示
文本特征指的是关于文本的元数据,分为描述性特征
和语义性特征。特征表示是指以一定的特征项来代表文档信息,在文本挖掘时只需对这些特征项进行处理,从而实现对非结构化的文本处理。特征表示模型有多种,常用的有布尔逻辑型、向量空间型、概率型以及混合型等。2.3特征提取
特征提取算法一般是构造一个评价函数,对每个特征进行评估,然后把特征按分值高低排队,预定数目分数最高的特征被选取。在文本处理中,常用的评估函数有信息增益、期望交叉熵、互信息、文本证据权和词频等。2.4结构分析
其目的是为了更好理解文本的主题思想,了解文本所表达内容以及采用的方式。最终结果是建立文本的逻辑结构,即文本结构树,根节点是文本主题,依次为层次和段落。2.5文本摘要
文本摘要是指从文档中抽取关键信息,用简洁的形式对文档内容进行解释和概括。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本摘要自动生成算法主要考察文本的开头、末尾,而且在构造句子的权值函
数时,相应的给标题、子标题、段首和段尾的句子较大的权值,按权值大小选择句子组成相应的摘要。2.6文本分类
文本分类是将待分类的Web文本分配到已经存在的某些类别中,属于有教师的机器学习问题。训练方法和分类算法是分类系统的核心部分。用于文本分类的分类方法较多,主要有朴素贝叶斯分类、向量空间模型、决策树、支持向量机、后向传播分类、遗传算法、基于案例的推理、K-最临近、基于中心点的分类方法、粗糙集、模糊集以及线性最小二乘等。2.7文本聚类
文本聚类是无教师的机器学习,聚类没有预先定义好的主题类别,其目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。
摘
要:介绍了Web挖掘技术,接着重点对Web文本挖掘的关键技术作了详细阐述。关中图分类号:TP393.09文献标识码:B文章编号:1002-2422(2008)05-0020-02
SurveyofWebTextMining
ZhaoXiaojing
Abstract:ThepaperintroducestheWebminingtechnologyandanalyzestechniquesofwebtextminingindetail.Keyword:键词:
Web挖掘
文本挖掘特征提取文本分类文本聚类Web文本挖掘综述
收稿日期:2008-08-02
*赵晓静合肥工业大学计算机学院在读研究生(合肥230009),安庆师范学院计算机系讲师(安徽,安庆246011)。
WebMining
TextMiningCharacterExtractionTextCategorizationTextClustering
赵晓静*
・
20・
1校园网络整网安全框架
1.1校园网络安全需求
通过以上对校园网络系统应用与安全风险分析,我们提出防范网络安全危险的安全需求:(1)采用相关的访问控制产品及控制技术防范来自不安全网络或不信任域的非法访问或非授权访问;(2)采用加密设备应用加密认证技术防范信息在网络传输过程中被非法窃取,而造成信息的泄露,并通过认证技术保证数据的完整性、真实性和可靠性;(3)采用安全检测技术来实时检查进出网络的数据流,动态防范各种来自内络的恶意攻击;(4)采用网络安全评估系统定期或不定期对网络系统或操作系统进行安全性扫描,评估网络系统及操作系统的安全等级,并分析提出补救措施。
1.2校园网络整网安全框架
校园网络的整网安全框架如图1所示,安全框架由以下四级组成:
(1)第一级—客户机安全。安全措施:主机的身份认证、用户系统入侵保护、病毒防护、应用层防火墙和员工的安全意识等。
(2)
第二级—网络设备。安全措施:用户入网控制、用户访问控制和安全事件自动防御及报警。
(3)第三级—后台服务。安全措施:进行访问用户身份识别、进行机密信息的加密存储、从源头控制病毒的扩散和
进行重要数据在线备份。
(4)
第四级—各种服务器。安全措施:系统平台要进行必要的安全设置;应用平台的安全,主要针对财务管理、学籍管理和图书管理平台,应进行特定的安全应用开发,平台自身具有较高的安全性。
安全管理系统的主要功能:安全策略制定、
下发,安全事件的自动处理和报警,全网安全日志的分析、汇总等。各级有不同的分工,又彼此间相互配合实现联动[1],共同保护整个校园网的安全运行。
2校园网络安全框架的实现
2.1防火墙子系统
在中心控制室与外部Internet之间部署功能较强的防火墙,能跟踪流经的所有通信信息;能够访问、分析和利用通信信息、通信状态、应用状态,并做信息处理;能根据系统管理员设定的安全规则提供访问控制、身份认证、网络地址
摘
要:基于典型校园网络的拓扑结构,构建了校园网络的四级安全框架。
关中图分类号:TP393.18文献标识码:A文章编号:1002-2422(2008)05-0021-02
GlobalSafetySolutionofCampusNetwork
LiJuying
Abstract:Inthispaper,accordingtotypicalnetworkstructures,fourlayerssecurityframeofcampusnetworkisdesigned.Keyword:键词:
校园网络
安全框架
身份认证
数字水印
入侵检测
校园网的整网安全解决方案
收稿日期:2008-04-07
*李菊英绵阳职业技术学院计算机科学系讲师(四川,绵阳621000)。
CampusNetworkSecurityFrameCertificationAuthorityDigitalWatermarking
InstructionDectection
李菊英*
・21・
3结束语
将来需要做的工作:
①如何将现存的数据挖掘技术应用与文本挖掘领域很好地融合;
②发展全新的非结构化文本挖掘算法;
③将文本挖掘与自然语言处理、计算语言学等有效集成,处理文档中的语义关系。
参考文献
[1]HanJ,KamberM.DataMiningConceptsandTech2ni-
ques[M].北京:高等教育出版社,2001:285-295.[2]和亚丽,陈立潮.Web文本挖掘中的特征选取方法研
究[J].上海:
计算机工程,2005(3).[3]袁军鹏,朱东华.文本挖掘技术研究进展[J].成都:计算
机应用研究,2006
(2).[4]JuanJose′GarcX ′aAdeva,JuanManuelPikatzaAtxa.Intrusiondetectioninwebapplicationsusingtextmin-ing[J].[S.l]:
EngineeringApplicationsofArtificialIntelli-gence,2007(20):555-
566.