
1、广义的搜索引擎是指信息用户为处理和解决问题而查找、识别、获取相关的事实、文献和数据的活动及过程。狭义的搜索引擎是指信息用户在信息检索系统上的信息查询行为。
2、信息检索涉及三个重要的处理过程:文档集的逻辑表示、用户查询信息的表示、相似匹配。因此信息检索是一个三元体的框架,D为文档集中的一组文档逻辑视图(文档),Q为一组用户信息需求的逻辑视图表示(用户查询),R(Q,D)表示文档与用户查询之间联系的相关度函数。
3、面向用户的个性化服务成为主流,是一个四元组框架,多个U,为R(Q,D,U)。
4、信息检索模型表达方式:布尔模型、向量空间模型、概率模型和逻辑模型等。向量空间模型更适合网络Web文本信息检索要求。
5、向量空间模型:用不同的词语项集来表达不同的Web网页文档,所有用语的集合构成了一个N维文档空间。Web文档集合中的任何一篇文档都可以表示为这个空间中的一个向量,因此称为文档向量。文档向量在每个词语维度上的取值能反映该词语在该文档中的权重。把网页文档看成是一组词语(T1,T2…,Tn)构成的序列。Wi为坐标值。网页文档可表示为((T1,W1),(T2,W2)。。,(Tn,Wn))。词频TF,与权重成正比。文档频率与权重成反比。
6、向量空间模型的缺点:不能有效地结构化查询,如布尔查询;只能抽取出文档中的词,不能反映这些词之间的关联。N元语法信息表示模型不权能够抽取出词,而且可表示相互关联。
7、从本质上看,由于信息检索只是以文档中自然语言作为基本的处理对象,因此目前这些传统的方式全部建立在一种基于“索引假设”的信息检索模型之上,只能处理非常简单的语言成分。通过引入更深层次的自然语言处理理论和方法来改进网络文本信息的组织和管理模式,有效地对词义加以最大限度地利用,以提高信息检索模型的性能,这被认为是未来最重要的发展方向.
8、义项矩阵模型(sense matrix model,SMM),利用自然语言中词和义项的复杂关系提出的一种新的文档表示,即把文档表示成为一个term*sense矩阵。
9、Web信息检索难度表现在三个方面:一如果获取海量Web数据;二是如何将异构信息整序以结构化存储;三是用户如何准确地表达自己的查询请求。
10、搜索引擎一般包含爬虫程序,分析程序,索引程序,检索程序和用户接口界面5个基本部分。
11、相关度排序技术:一是基于传统信息检索技术的方式,利用关键词在文档中的重要程度来对文档与用户查询要求的相关度做出测量,如果频率和位置;二是超链分析技术,网页被认可的重要程度作为检索结果的相关度排序依据。
12、相关度排序技术主要依赖于超链分析技术实现。它主要利用网页间存在的各种链接指向,对网页之间的引用关系进行分析,依据网页链人数的多少计算该网页的重要度权值。代表算法有:PageRank算法和HITS算法
13、数据挖掘提取的信息可以表示为:概念,规则,规律,模式等。
Web挖掘就是指将数据挖掘技术和Web网络结合起来的一种技术和过程,主要从Web文档和Web活动中抽取感兴趣的潜在有用模式和隐藏信息。从集合C发现隐含模式P的过程。
14、Web挖掘技术:关联规则挖掘技术,分类聚类挖掘技术。Web挖掘分为:Web内容挖掘,Web结构挖掘,Web使用挖掘(日志挖掘)。
15、Web内容挖掘分为基于文本的和基于多媒体的。基于文本的挖掘有两种策略:一个是直接挖掘网页文本的内容本身;另一个是对搜索引擎的查询结果进一步处理,以得到更为精确和有用的信息。
16、Web结构挖掘分为网页外部结构挖掘和网页内部结构挖掘。外部结构挖掘主要是针对网页间存在的超链进行分析,从而发现网页间链入和链出的规律,以此得到网页重要性的客观指标。内部结构挖掘主要是指按照面面内部不同板块的组织方式,挖掘出蕴含在页面内部的结构信息。
17、Web日志挖掘是通过处理服务器日志文件,以发现用户的浏览模式,如序列模式、关联规则、用户聚类等,通过理解用户的行为来预测用户的行为,进行用户个人信息的定制和网页的预测和推荐,为用户提供个性化的信息服务同时还能据此改进和优化Web站点结构。
18、
19、网页质量直接测度指标:一是基于网页链接关系的评价指标,能够被更多网页链入的流行网页是更为重要的网页,也是质量较高的网页。如Google的PageRank。可能出现“富越富”的现象。二是基于网站流量的评价指标。三是基于Web用户访问模型的评价指标,用户在浏览一个网页后,在较短时间内对其建立了超链,则可以认为这种网页具有较高的质量。
20、网页质量间接测度指标:一是基于网页名誉度的评价指标;二是基于网站权威性的评价指标;三是基于用户相关度反馈信息的评价指标。
21、网页相关度分析技术,超链分析算法。标准PageRank算法:一个网页的重要性决定着也同时依赖着其他网页的重要性。一个网页本身的PageRank值越高,则它对其链出网页的推荐能力就越大;一个网页的链出网页越少,那么它对其中一个链出网页的推荐程序就越高。计算公司是:
Ti是网页P的链入网页,C(Ti)表示网页Ti链出节点数量总和;PRn+1(P)表示第n+1次运算中网页P的PageRank值。收敛则迭代结束
22、等级沉没(Page sink)是指整个网页图中一组紧密相连的网页都没有外出的链接;等级泄漏(Page leak)是指一个的网页没有外出的链接。对于前者,添加一个指向链入网页的返回链接,使得所有网页PageRank值的计算就不完全依赖现有链接了;对于后者,可以通过剔除产生等级泄漏的网页以消除它的不利影响。修正过的PageRank计算公式为:
d为跳转因子,它主要用于表示Web用户具有多大的概率通过其他网页的超链来访问当前网页;1-d表示Web用户通过诸如键入URL等方式直接访问该网页的概率,简单用1来表示。
2010-3-9
1、现在搜索引擎系统存在的问题:一是缺乏信息收集和信息检索的同步性;二是信息检索的方式具有单一性;三是信息检索内容具有单一性;四是信息服务方式具有被动性。
2、现阶段个性化搜索引擎的不足:一是用户需求难以有效表达;二是检索结果准确化和检索快速化之间存在矛盾;三是现代搜索引擎的检索智能化水平仍然较低。
3、基于个性化信息采集的个性化搜索引擎,常用的采集方式有两个:一个是基于主题爬虫的方式;另一个是基于多元搜索引擎的方式。
4、基于主题爬虫的个性化搜索引擎而言,爬虫程序主要分为的三种:一是基于宽度优先的遍历算法;二是利用启发规则分析的质量优先遍历算法;三是基于神经网络算法的激活扩散模型。
5、基于多元搜索引擎的个性化搜索引擎:第一种是采用查询改进的方法;第二种强调合并过程(多个搜索引擎)的个性化。
6、基于个性化网页权重的个性化搜索引擎,个性化PageRank方法主要分为两大类:一类是直接修改基于超链关系得到的网页权重值;另一类是在传统PageRank公式上添加修正参数来反映用户的个性化要求。
7、个性化搜索引擎的设计前提有两个:一是搜索引擎用户是否存在明显的个性化信息需求特征,这是个可行性问题;另一个是搜索引擎的个性化方法如何选择,这要结合个性化技术特点和Web用户的行为特征。
8、产生更为有效的事务模式:最大前向引用法;引用时长法;时间窗口方法。
9、得到不同的用户事务模式类别,具体可以使用两种方式:一种是利用聚类方法;另一种是利用发现频繁路径的方法来获得。其中基于聚类的用户模式主要依据用户事务模式的相似度计算,这有很多方法:基于关键词外在特征的传统计算方式、基于用户兴趣度的相似度计算、基于关键词语义信息相似度计算和基于查询文档语义信息的相似度计算。具体聚类算法有层次聚类算法和非层次聚类算法。
10、关键词产生了高维问题,降维的方法有:采用特征选择的方法;采用映射的方法。
搜索引擎优化入门与进阶
1、搜索引擎按工作方式分为三种:全文搜索引擎、目录搜索引擎、元搜索引擎。其它的有:集合式搜索引擎、门户搜索引擎、免费链接列表。
2、搜索引擎的主要工作:页面收录、页面分析、页面排序及关键字查询。
3、页面收录:URL是页面的入口,而域名则是网站的入口。搜索引擎蜘蛛程序通过域名进入网站,从而展开对网站页面的抓取。搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的域名列表,再通过域名进入相应的网站,从而抓取网站中的页面。网站加入搜索引擎域名列表的方法:一是利用搜索引擎提供的网站登录入口,提交域名。二是与建立链接关系。
4、搜索引擎收录页面的工作原理:把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。不停地从URL列表中移出已经访问过的URL,并存储原始页面,同时提取原始页面中的URL信息;再将URL分为域名及内部URL两大类,同时判断URL是否被访问过,将未访问的URL加入URL列表中。递归地扫描URL列表,直至耗尽所有URL资源为止。经过这样,搜索引擎就可以建立庞大的域名列表、页面URL列表并存储足够多的原始页面。
5、页面收录方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在互联网中筛选出相对重要的信息。有:广度优先、深度优先及用户提交三种。
6、常见页面维护方式包括:定期抓取、增量抓取及分类定位抓取。
7、分词/切词,中文分词算法:字符串匹配分词、统计分词、关键字索引。
8、页面排序的因素:页面相关性、链接权重及用户行为。
9、用户查询流程
2010-3-10
10、关键字词频是关键词出现的次数。关键字密度则是该关键字出现的词频与页面关键字的比。
