点击下载
本文文档

当前位置：首页 - 正文

Web文本挖掘综述

来源：动视网责编：小OO 时间：2025-09-30 21:01:13

Web文本挖掘综述

１Ｗｅｂ挖掘简介１．１Ｗｅｂ挖掘的定义Ｗｅｂ挖掘是一项综合技术，涉及Ｗｅｂ、数据挖掘、计算机语言学、机器学习、模式识别、人工智能、统计学、计算机网络技术、信息学等多个领域。Ｗｅｂ挖掘定义：Ｗｅｂ挖掘是指从大量非结构化、异构的Ｗｅｂ信息资源中发现有效的、新颖的、潜在可用的及最终可理解的知识的非平凡过程。１．２Ｗｅｂ挖掘任务的分类Ｗｅｂ挖掘技术分为三大类：Ｗｅｂ内容挖掘、Ｗｅｂ访问信息挖掘和Ｗｅｂ结构挖掘。２Ｗｅｂ文本挖掘技术Ｗｅｂ文本挖掘技术如图１所示。２．１分词技术对文档进行特征提取前，要先进

推荐度：

点击下载本文 文档为doc格式

导读１Ｗｅｂ挖掘简介１．１Ｗｅｂ挖掘的定义Ｗｅｂ挖掘是一项综合技术，涉及Ｗｅｂ、数据挖掘、计算机语言学、机器学习、模式识别、人工智能、统计学、计算机网络技术、信息学等多个领域。Ｗｅｂ挖掘定义：Ｗｅｂ挖掘是指从大量非结构化、异构的Ｗｅｂ信息资源中发现有效的、新颖的、潜在可用的及最终可理解的知识的非平凡过程。１．２Ｗｅｂ挖掘任务的分类Ｗｅｂ挖掘技术分为三大类：Ｗｅｂ内容挖掘、Ｗｅｂ访问信息挖掘和Ｗｅｂ结构挖掘。２Ｗｅｂ文本挖掘技术Ｗｅｂ文本挖掘技术如图１所示。２．１分词技术对文档进行特征提取前，要先进

１Ｗｅｂ挖掘简介

１．１Ｗｅｂ挖掘的定义

Ｗｅｂ挖掘是一项综合技术，涉及Ｗｅｂ、数据挖掘、计算机语言学、机器学习、模式识别、人工智能、统计学、计算机网络技术、信息学等多个领域。Ｗｅｂ挖掘定义：Ｗｅｂ挖掘是指从大量非结构化、异构的Ｗｅｂ信息资源中发现有效的、新颖的、潜在可用的及最终可理解的知识的非平凡过程。１．２Ｗｅｂ挖掘任务的分类

Ｗｅｂ挖掘技术分为三大类：Ｗｅｂ内容挖掘、Ｗｅｂ访问信息挖掘和Ｗｅｂ结构挖掘。２Ｗｅｂ文本挖掘技术

Ｗｅｂ文本挖掘技术如图１所示。

２．１分词技术

对文档进行特征提取前，要先进行文本信息的预处目前主要有基于词库的分词算法和无词典的分词技术两种。

（１）

基于词库的分词算法包括正向最大匹配、正向最小匹配、逆向匹配及逐词遍历匹配法等。这类算法的特点是易于实现，设计简单；但由于分词的正确性很大程度上取决于所建的词库，因此基于词库的分词技术对于歧义和未登录词的切分具有很大的困难。

（２）

基于无词典的分词技术的基本思想是：其于词频的统计，将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计，出现的次数越高，成为一个词的可能性也就越大，在频率超过某个预先设定的阈值时，就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。２．２文本的特征表示

文本特征指的是关于文本的元数据，分为描述性特征

和语义性特征。特征表示是指以一定的特征项来代表文档信息，在文本挖掘时只需对这些特征项进行处理，从而实现对非结构化的文本处理。特征表示模型有多种，常用的有布尔逻辑型、向量空间型、概率型以及混合型等。２．３特征提取

特征提取算法一般是构造一个评价函数，对每个特征进行评估，然后把特征按分值高低排队，预定数目分数最高的特征被选取。在文本处理中，常用的评估函数有信息增益、期望交叉熵、互信息、文本证据权和词频等。２．４结构分析

其目的是为了更好理解文本的主题思想，了解文本所表达内容以及采用的方式。最终结果是建立文本的逻辑结构，即文本结构树，根节点是文本主题，依次为层次和段落。２．５文本摘要

文本摘要是指从文档中抽取关键信息，用简洁的形式对文档内容进行解释和概括。这样，用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本摘要自动生成算法主要考察文本的开头、末尾，而且在构造句子的权值函

数时，相应的给标题、子标题、段首和段尾的句子较大的权值，按权值大小选择句子组成相应的摘要。２．６文本分类

文本分类是将待分类的Ｗｅｂ文本分配到已经存在的某些类别中，属于有教师的机器学习问题。训练方法和分类算法是分类系统的核心部分。用于文本分类的分类方法较多，主要有朴素贝叶斯分类、向量空间模型、决策树、支持向量机、后向传播分类、遗传算法、基于案例的推理、Ｋ－最临近、基于中心点的分类方法、粗糙集、模糊集以及线性最小二乘等。２．７文本聚类

文本聚类是无教师的机器学习，聚类没有预先定义好的主题类别，其目标是将文档集合分成若干个簇，要求同一簇内文档内容的相似度尽可能大，而不同簇间的相似度尽可能小。

摘

要：介绍了Ｗｅｂ挖掘技术，接着重点对Ｗｅｂ文本挖掘的关键技术作了详细阐述。关中图分类号：ＴＰ３９３．０９文献标识码：Ｂ文章编号：１００２－２４２２（２００８）０５－００２０－０２

ＳｕｒｖｅｙｏｆＷｅｂＴｅｘｔＭｉｎｉｎｇ

ＺｈａｏＸｉａｏｊｉｎｇ

Ａｂｓｔｒａｃｔ：ＴｈｅｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅＷｅｂｍｉｎｉｎｇｔｅｃｈｎｏｌｏｇｙａｎｄａｎａｌｙｚｅｓｔｅｃｈｎｉｑｕｅｓｏｆｗｅｂｔｅｘｔｍｉｎｉｎｇｉｎｄｅｔａｉｌ．Ｋｅｙｗｏｒｄ：键词：

Ｗｅｂ挖掘

文本挖掘特征提取文本分类文本聚类Ｗｅｂ文本挖掘综述

收稿日期：２００８－０８－０２

＊赵晓静合肥工业大学计算机学院在读研究生（合肥２３０００９），安庆师范学院计算机系讲师（安徽，安庆２４６０１１）。

ＷｅｂＭｉｎｉｎｇ

ＴｅｘｔＭｉｎｉｎｇＣｈａｒａｃｔｅｒＥｘｔｒａｃｔｉｏｎＴｅｘｔＣａｔｅｇｏｒｉｚａｔｉｏｎＴｅｘｔＣｌｕｓｔｅｒｉｎｇ

赵晓静＊

・

２０・

１校园网络整网安全框架

１．１校园网络安全需求

通过以上对校园网络系统应用与安全风险分析，我们提出防范网络安全危险的安全需求：（１）采用相关的访问控制产品及控制技术防范来自不安全网络或不信任域的非法访问或非授权访问；（２）采用加密设备应用加密认证技术防范信息在网络传输过程中被非法窃取，而造成信息的泄露，并通过认证技术保证数据的完整性、真实性和可靠性；（３）采用安全检测技术来实时检查进出网络的数据流，动态防范各种来自内络的恶意攻击；（４）采用网络安全评估系统定期或不定期对网络系统或操作系统进行安全性扫描，评估网络系统及操作系统的安全等级，并分析提出补救措施。

１．２校园网络整网安全框架

校园网络的整网安全框架如图１所示，安全框架由以下四级组成：

（１）第一级—客户机安全。安全措施：主机的身份认证、用户系统入侵保护、病毒防护、应用层防火墙和员工的安全意识等。

（２）

第二级—网络设备。安全措施：用户入网控制、用户访问控制和安全事件自动防御及报警。

（３）第三级—后台服务。安全措施：进行访问用户身份识别、进行机密信息的加密存储、从源头控制病毒的扩散和

进行重要数据在线备份。

（４）

第四级—各种服务器。安全措施：系统平台要进行必要的安全设置；应用平台的安全，主要针对财务管理、学籍管理和图书管理平台，应进行特定的安全应用开发，平台自身具有较高的安全性。

安全管理系统的主要功能：安全策略制定、

下发，安全事件的自动处理和报警，全网安全日志的分析、汇总等。各级有不同的分工，又彼此间相互配合实现联动［１］，共同保护整个校园网的安全运行。

２校园网络安全框架的实现

２．１防火墙子系统

在中心控制室与外部Ｉｎｔｅｒｎｅｔ之间部署功能较强的防火墙，能跟踪流经的所有通信信息；能够访问、分析和利用通信信息、通信状态、应用状态，并做信息处理；能根据系统管理员设定的安全规则提供访问控制、身份认证、网络地址

摘

要：基于典型校园网络的拓扑结构，构建了校园网络的四级安全框架。

关中图分类号：ＴＰ３９３．１８文献标识码：Ａ文章编号：１００２－２４２２（２００８）０５－００２１－０２

ＧｌｏｂａｌＳａｆｅｔｙＳｏｌｕｔｉｏｎｏｆＣａｍｐｕｓＮｅｔｗｏｒｋ

ＬｉＪｕｙｉｎｇ

Ａｂｓｔｒａｃｔ：Ｉｎｔｈｉｓｐａｐｅｒ，ａｃｃｏｒｄｉｎｇｔｏｔｙｐｉｃａｌｎｅｔｗｏｒｋｓｔｒｕｃｔｕｒｅｓ，ｆｏｕｒｌａｙｅｒｓｓｅｃｕｒｉｔｙｆｒａｍｅｏｆｃａｍｐｕｓｎｅｔｗｏｒｋｉｓｄｅｓｉｇｎｅｄ．Ｋｅｙｗｏｒｄ：键词：

校园网络

安全框架

身份认证

数字水印

入侵检测

校园网的整网安全解决方案

收稿日期：２００８－０４－０７

＊李菊英绵阳职业技术学院计算机科学系讲师（四川，绵阳６２１０００）。

ＣａｍｐｕｓＮｅｔｗｏｒｋＳｅｃｕｒｉｔｙＦｒａｍｅＣｅｒｔｉｆｉｃａｔｉｏｎＡｕｔｈｏｒｉｔｙＤｉｇｉｔａｌＷａｔｅｒｍａｒｋｉｎｇ

ＩｎｓｔｒｕｃｔｉｏｎＤｅｃｔｅｃｔｉｏｎ

李菊英＊

・２１・

３结束语

将来需要做的工作：

①如何将现存的数据挖掘技术应用与文本挖掘领域很好地融合；

②发展全新的非结构化文本挖掘算法；

③将文本挖掘与自然语言处理、计算语言学等有效集成，处理文档中的语义关系。

参考文献

［１］ＨａｎＪ，ＫａｍｂｅｒＭ．ＤａｔａＭｉｎｉｎｇＣｏｎｃｅｐｔｓａｎｄＴｅｃｈ２ｎｉ－

ｑｕｅｓ［Ｍ］．北京：高等教育出版社，２００１：２８５－２９５．［２］和亚丽，陈立潮．Ｗｅｂ文本挖掘中的特征选取方法研

究［Ｊ］．上海：

计算机工程，２００５（３）．［３］袁军鹏，朱东华．文本挖掘技术研究进展［Ｊ］．成都：计算

机应用研究，２００６

（２）．［４］ＪｕａｎＪｏｓｅ′ＧａｒｃX ′ａＡｄｅｖａ，ＪｕａｎＭａｎｕｅｌＰｉｋａｔｚａＡｔｘａ．Ｉｎｔｒｕｓｉｏｎｄｅｔｅｃｔｉｏｎｉｎｗｅｂａｐｐｌｉｃａｔｉｏｎｓｕｓｉｎｇｔｅｘｔｍｉｎ－ｉｎｇ［Ｊ］．［Ｓ．ｌ］：

ＥｎｇｉｎｅｅｒｉｎｇＡｐｐｌｉｃａｔｉｏｎｓｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉ－ｇｅｎｃｅ，２００７（２０）：５５５－

５６６．

Web文本挖掘综述

１Ｗｅｂ挖掘简介１．１Ｗｅｂ挖掘的定义Ｗｅｂ挖掘是一项综合技术，涉及Ｗｅｂ、数据挖掘、计算机语言学、机器学习、模式识别、人工智能、统计学、计算机网络技术、信息学等多个领域。Ｗｅｂ挖掘定义：Ｗｅｂ挖掘是指从大量非结构化、异构的Ｗｅｂ信息资源中发现有效的、新颖的、潜在可用的及最终可理解的知识的非平凡过程。１．２Ｗｅｂ挖掘任务的分类Ｗｅｂ挖掘技术分为三大类：Ｗｅｂ内容挖掘、Ｗｅｂ访问信息挖掘和Ｗｅｂ结构挖掘。２Ｗｅｂ文本挖掘技术Ｗｅｂ文本挖掘技术如图１所示。２．１分词技术对文档进行特征提取前，要先进

推荐度：

点击下载本文 文档为doc格式

热门焦点

Web文本挖掘综述

Web文本挖掘综述

Web文本挖掘综述

最新推荐

猜你喜欢

热门推荐