网络信息挖掘中的搜索引擎技术探析
岳俊英
(内蒙古大学计算机学院,内蒙古呼和浩特010021)
摘 要:首先分析了搜索引擎的工作原理,其次简要设计了搜索引擎在网络信息挖掘中应用,并进一步研究了搜索引擎的
应用实现,涉及到挖掘预处理、挖掘训练以及信息文件的操作。对搜索引擎的应用研究起到一定的借鉴作用。
关键词:搜索引擎;数据挖掘;信息检索
中图分类号:G434 文献标识码:A 文章编号:167227800(2010)0320152202
0 引言
网络信息的快速增长,使搜索引擎成为人们查找网络信息的首选工具。而网络信息挖掘必须操纵大量的数据,其文本信息库可能是相当庞大的,传统的做法是对网络信息进行人工分类,并加以组织和整理。但是,这种做法存在着许多弊端。本文就搜索引擎在网络信息挖掘中的应用进行相应研究与分析。
1 搜索引擎的工作原理
搜索引擎通常通过下载Internet 上的Web 文档,进行过滤、分词、转换等处理工作,然后对文档信息进行预处理和形式化描述,抽取特征并进行索引。文档的收集是Web 信息检索的基础。文档的预处理为后续检索工作提供了保证。一个典型搜索引擎的基本工作流程如图1所示
:
图1 典型搜索引擎的基本工作流程
2 搜索引擎在网络信息挖掘中应用的整体设计
本文研究了一个网络信息挖掘系统,整个系统主要由信息
库和功能模块组成。信息库存储所需的Web 文档,文档的质量对分类器性能至关重要。文档质量可以从两个方面进行考察:文档的代表性。这是对单个文档来说的,要求每个文档都能代表某一文档类中有特色的文档实例;文档的覆盖性。这是对某一类文档而言的,要求每一文档类具备完整的代表性文档实例。本系统文档不是直接从Web 文档中提取信息,而是把Web 文档(*ht ml)经过预处理保存为文本文件(*.txt),然后
再从中挖掘重要网络信息。
准备好信息库,网络信息挖掘系统进入处理流程:Web 网页经过预处理得到中文文本信息,投入到分类样本集中,经过分类预处理,把文本信息表示成特征项集。这个过程为后面的处理做好准备。接下来,转入分类器或者使用已有的分类器进行分类的过程,这个过程中处理的是特征向量。
3 搜索引擎在网络信息挖掘中应用的实现
3.1 挖掘预处理
挖掘预处理包括网络信息预处理及分类预处理两大过程。网络信息预处理首先从INT ERNET 下载的网络页面信息,它们不同于单纯的文本,包含了大量的格式化标记,比如
分类预处理过程就是对信息预处理后的文件进行分词处理。主要包括词性标注、短语识别,去除停用词、还原词根,统计词频。这样得到单词流构成的原始特征项集以及每个特征项的词频。原始特征项集在训练分类器阶段用于产生最优特征项集为文本以向量空间模型表示做好准备。
其中,停用词是指由一系列没有检索意义的高频词,如中文文献中的/的0、/关于0、/但是0、/而且0等。从相关性方面讲,这些词会多次出现在各种类别的网页中,没有检索意义;从词行的角度看,一般包括如介词、限定词、感叹词等。因此在处理标签、分词之后,需要清除停用词,同时清除标点符号和多余
作者简介:岳俊英(19832),女,内蒙古通辽人,内蒙古大学计算机学院硕士研究生,研究方向为智能信息处理。
的空格等冗余符号。
3.2 挖掘训练及控制分类
对于预处理后的信息文件,进行特征加权,从而确定最优特征项集,接着生成文档向量,然后使用分类算法训练分类器。其中,特征加权就是计算原始特征项集中每个特征项的类别区分度,即权重。通过权重的不同以反映不同特征项对文档的贡献大小,以便后面的特征选择对其/择优0选取。
FeatherWeight (m-lstWordInit );//m-lstWordList 是原始特征项集
本文使用IF 2IDF 公式计算权重。实现的时候,为原始特征项集里每个特征项设置一个结构svm-WeightNode,来存放它相应的权值,代码如下所示:
st ruct svm-Weight Node
{int svm-idWord;//特征的ID int svm-tfi;//特征在文档中出现的频次double svm-Weight ;//特征的权重};
特征选择是通过特征评估函数,确定最优特征项集。FeatherSelection (m-lstT rainWordList )
//从m-lstWordList 选出最优特征项集,到m-lst Train 2WordList 中,最终组成最优征项集,保存到网络信息数据文件中,该文件还有三列,分别表示:编号、特征项、频率。编号从0开始顺序递增。特征维数的设定要注意范围,太小不能反映实际问题,影响分类的准确性;太大又影响计算复杂度、运行效率、时间和存储空间。
3.3 网络信息文件的操作
网络信息挖掘的过程中,都会涉及到网络信息文件的读入读出。本文采用系统函数fget ()和fputc()来实现,并形成相应的几个接口函数。通过扫描整个网络信息文档集,统计各个类
别包含的网络信息文档数、该文件每行的字符数,得到最大值,用于系统为各个数据结构初始化内存空间,比如docx 和label,函数scan-docs()完成此功能。
Int scan-docs(char*docfile,long*max-docx,long*max-words-doc,long*long)
对于整个网络信息文档集,read-document s()计算每个网络信息文档包含的单词,得到其中的最大值。对于每一个网络信息文档,调用parse-document()函数,该函数对于一个网络信息文档,解析出各个单词,分别放到相应的数据结构中去。
Int read-documents (ch ar*docfile,DOC*docs,long *label,long max-w ords-doc,long ll,long*tot words,long*totdoc,im post-label )
Int parse-document (char*line,DOC*doc,long*la 2bel,long*numwords,long max-words-doc )
4 结束语
总之,随着Web 技术的发展和人们对网络数据、信息、知识
的不断追求,搜索引擎在网络信息挖掘中的应用变得越来越重要。本文通过预处理网络信息,利用搜索引擎技术对其进行挖掘,通过特征加权,确定最优特征项集,提高了挖掘的有效性及搜索的查全率。
参考文献:
[1] 张拥军.浅析网络信息挖掘技术及应用[J].科技风,2008(04).[2] 张婕,袁力田.搜索引擎在网络信息挖掘中的应用[J].电脑与电信,
2006(07).
(责任编辑:卓 光)
Research of Search Engine Technology based
on Network Information Mining
Abstr act:This paper first analyzes t he working principle of search engine,followed by a schematic design of t he search engine in
the application of Web Mining,and further study th e application of the search engines to ach ieve,involving pre 2excavation,excava 2t ion training and informat ion file operations.This applied research on search engines learn t o play a certain role.Key Words:Search Engine;Data Min ing;Information Retrieval
#
153#第3期 岳俊英:网络信息挖掘中的搜索引擎技术探析