最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

网络环境下信息检索语言的应用研究

来源:动视网 责编:小OO 时间:2025-09-24 23:35:24
文档

网络环境下信息检索语言的应用研究

网络环境下信息检索语言的应用研究摘要信息检索语言是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统,其职能,是作为信息检索系统的语言保证,检索语言的质量直接影响着检索系统的效率。目前,网络信息检索工具主要是基于范畴层次(List-basedSearchEngines)的搜索引擎基于语词层次(Words-basedSearchEngines)的搜索引擎。著名的浏览型网络信息检索工具如、Yahoo、Eblast、Galaxy和大部分综合型搜索引擎实际上都是自觉或不自觉地借鉴了传统清报检索
推荐度:
导读网络环境下信息检索语言的应用研究摘要信息检索语言是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统,其职能,是作为信息检索系统的语言保证,检索语言的质量直接影响着检索系统的效率。目前,网络信息检索工具主要是基于范畴层次(List-basedSearchEngines)的搜索引擎基于语词层次(Words-basedSearchEngines)的搜索引擎。著名的浏览型网络信息检索工具如、Yahoo、Eblast、Galaxy和大部分综合型搜索引擎实际上都是自觉或不自觉地借鉴了传统清报检索
网络环境下信息检索语言的应用研究

摘 要     

信息检索语言是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统,其职能,是作为信息检索系统的语言保证,检索语言的质量直接影响 着检索系统的效率。

 目前,网络信息检索工具主要是基于范畴层次( L i s t - b a s e d  S e a r c h  E n g i n e s ) 的搜索引擎基于语词层次( Words - based  Search  Engines ) 的搜索引擎。著名的浏览型网络信息检索工具如、Yahoo 、Eblast 、Galaxy 和大部分综合型搜索引擎实际上都是自觉或不自觉地借鉴了传统清报检索语言组织和揭示信息的思想, Altavista集成的Askjeeves 就是自然语言搜索引擎。传统检索语言经过网络适应性改造后,能够成为目前及将来相当时期内 最主要、最重要、最有效的网络信息资源组织的方法,依然能为网络信息检索提供语言保证。

 在手工检索、机检条件下形成的受控语言从标引到检索两方 面都已基本成熟,网络信息资源的组织与检索涉及到自然语言如何与受控语言兼容并蓄问题。受控语言与自然语言相结合,共同用于组织和检索网络信息应该是未来信息检索语言的发展方向 。本文力图通过对近年来国内外针对网络环境下信息检索语言理论及应用性成果的研究,展望这一领域研究前沿与发展趋势。

本文主要研究网络环境下信息检索语言的发展, 主要内容包括五部分:

第一部分分析了网络环境对信息检索语言的影响; 第二部分是网络环境下分类检索语言的应用,包括传统分类法电子化及在网络上的应用,网络信息检索工具中的应用; 第三部分是网络环境下主题检索语言的应用,包括传统叙词表电子化及在网络上的应用,在网络信息捡索工具中的应用; 第四部分是自然语言处理与自然语言检索,包括自然语言处理的基本原理及在信息检索中的应用, 国内外自然语言检索进展; 作者在论文最后指出,在网络环境下信息检索语言新发展有: 元数据研究; 分类— 主 题一 自然语言一体化,分析国外一体化系统实例: 一体化医学语言系统iJMLS ,国内一体化系统实例:《中国财经报刊数据库》检索系统;并指出学科一事物概念组配型检索语言是理想发展模式。

关键词: 信息检索语言、 网络信息检索、 自然语言检索搜索引擎、 主题检索语言

引 言

 信息检索语言是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统,其职能是作为信息检索系统的语言保证,检索语言的数量直接影响着检索系统的效率。网络环境下,信息检索语言面临的信息环境已发生了深刻的变化:数据库数量急剧膨胀,信息资源类型复杂多样,广大网络终端用户直接使用检索语言。这就要求情报语言学要突破传统的 束缚,开拓研究思路,适应大信息环境下情报检索的语言要求。近年来国内苏的 碱分析表明 ,情报语言在网络信息环境下又有了其发展的新领域、新热点,蕴育着新的生机。

回顾信息检索产生、 发展的历史, 从基子印刷型文献的手工检索护 基于数据库的计算机检索到基于网络的信息检索,检索语言经历了以受控语言(分类法、主题法) 为 主 、 受控语言和自然语言结合,以及以自然语言为主三个阶段。

检索语言的基本功能:( 1 ) 对情报信息的内容加以标引揭示其外表特征和内在内容; ( 2 ) 对内容相同及相关的情报加以集中或揭示其相关性断(3)对大量信息加以系统化或组织化;( 4 ) 便于将标引用语和检索用语进行相符性比较:( 5 )便于检索用户从无序的信息中获取有用信息。

网络信息检索工具主要是基于范畴层次( List-based Search Engines )的搜索引擎和基于语词层次( Words-based Search Engines )的 搜索引擎。著名的 浏览型网络信息检索工具如Yahoo , Eblast ,Galaxy 和大部分综合型搜索引擎实际上都是自觉或不自觉地借鉴了传统情报检索语言组织和揭示信息的思想,Altavista 集成 的A s k j e e v e s 就是自然语言搜索引擎。传缤检索语言经过网络适应性改造后,能够成为目前及将来相当时期内最主要、最重要、最有效的网络信息资源组织的方法,依然能 为网 络 信息检索提供语言保证。                          

目前,信息检索领域在手工检索 、机检条件下形成的受控语言从标引到检索两方面都已基本成熟。网络信息资源的组织与检索涉及到自然语言如何与受控语言兼容并蓄问题。受控语言与自然语言相结合,共同用于组织和检索网络信息应该是未来信息检索语言的发展方向。

1网络环境对信息检索语言的影响

1.1网络环境特点

1.1.1 网络信息的特点

( 1 )数量巨大而庞杂。Internet是一个基于TCP/IP协议连接世界各国数以百万计算机网络的通讯网,是一个集各种信息资源为一体的信息资源网。、机构、企业、个人等都可以在网上发布信息,因此它已成为无所不包的庞杂信息源,并具有跨地区、分布广、多语种、高度资源共享的特点。

 ( 2 )内容范围广泛。网上的信息源几乎涵盖了人类知识的全部领域,既有人文科学、社会科学、自 然科学、工程技术信息,也有大量生活服务、娱乐消遣等方面的信息。

( 3 ) 信息类型丰富。其主要形式有网络出版,包括电子期刊、网上图书、电子工具书等各种动态信息主要包括新闻、 广告、 股市行情、天气、交通、 会议等; 还有大量的书目 数据库联机数据库、软件资源以及个人主页、电子邮件等。 这些信息都是数字式、多媒体,既有文本的信息,也有大量的图形、图像、音频、视频信息。

( 4 )动态性强。网上信息具有高度动态性,各种信息处在不断生产、更新淘汰的状态,同时连接在一起的各网络、网站、网页都时时刻刻在变化。网络信息还具有交互式特点,如B B S、聊天、 游戏等。

( 5 )信息组织特殊、控制性差。因特网上信息的组织以 超文本技术链接,构成立体网状文献链,把不同国家地区、不同服务器、各种网页、各类不同文献的相关信息都通过节点链接起来使得检索相关文献、相关信息非常方便,加强了信息间的关联度,形成了一个网状结构。

( 6 )有序与无序,集中与分散并存。互联网上的信息没有统一控制,虽然从局部来说某个网站、某个数据库是有控制的、相对集中的、有序和规范的,但总的来说互联网的信息没有统一的控制,信息质量良 荞不齐,信息也处于分散、无序、不规范的状态之中。   1.1.2 网络信息用户特点

由于职业和专业的不同,以及受教育程度的高低差异, 使得用户个体的认识和认知特征、知识储备和知识结构各不相同, 对知识体系的了解也不尽相同。同时,对同一概念、同一事物的内涵和外延的理解也会存在差异,对网络信息需求的目的和需求信息的种类也不同。正是由于种种不同,致使网络信息用户呈现差异性、复杂性等特征。

( 1 )用户范围广泛,层次不同。互联网的用户从院士到小学生、从科学家到工人、从企业家到农民、从音乐爱好者到球迷,包括家庭主妇、老人、儿童等等,我国网络用户主要群体是青年人,学生占很大比例。

 ( 2 )受教育程度差别大。从初等教育程度到博士教育,用户个体的认知特征、知识储备和知识结构都有很大的不同;工作岗位、职业、专业不同,对同一概念、同一事物的内涵和外延的理解不尽相同。目 前我国网络用户7 0 %以上具有大专学历,随着网络的普及, 这一比例正在降低,这也说明网络对专业知识的要求越来越低。

( 3 ) 用户需求多样化和复杂化。为进行科学研究,收集经济信息, 接发邮件,下载软件,听音乐,参与讨论,看新闻,学习课程,了解信息,学习知识,娱乐消遣,购物等等,都可以利用网络, 这导致用户查询和利用信息的视角不同、方法不同、类型不同、深浅程度也不同。

( 4 )使用网络信息服务项目 不同。用户最常使用的网络服务是:电子邮箱有 7 4 . 9 %, 搜索引擎有5 1 . 3 %,其他如软件上传或下载,各类信息查询,聊天也都是经常使用的信息服务类型。搜索引擎和信息咨询服务是用户利用网络信息资源最重要的工具,网络信息资源的有效组织决定了对其利用程度及便捷性。

1.1.3 网络信息资源组织与揭示

( 1 )自由文本组织方式。自由文本以全文数据库存储为基础。 它将一个信息源的全部内容( 而不是信息的线索),转化为计算机可以识别、处理的信息单元而形成数据集合,适应了对W e b网页中非结构化信息处理的需要。它必须对全文数据库进行词( 字) 、句、段落等深层编辑、加工,允许用户用自然语言表述、检索,直至直接查看一次信息。由于自由文本组织方式占用的空间大,系统响应速度慢,因而关于全文数据库压缩技术的研究, 关于超高密度磁盘、光盘及芯片技术的研究,以及关于自然语言后控机制的研究和给标引短句加权的研究等,将是自由文本组织方式中需要解决的问题。

( 2 ) 超维组织方式。这是一种基于知识单元的新型信息组织与揭示方式,它借助超文本技术来实现。超文本技术将文本信息存储在无数节点( n o d e ) 上,一个节点就是一个相对的“ 信息块”,节点之间用 “ 链”( l i n k ) 联接, 由此组成信息网络; 它也可以链接声音、图像( 形) 、影视等多媒体信息,构成超维检索点。在这种超维系统中,用自然语言分析、抽取知识单元,不仅减轻了专业标引人员的负担,而且打破了传统系统线性序列的局限性,允许用户按个人兴趣和熟悉的语言浏览、查询信息。

1.1.4 网络技术环境特点

( 1 )现代计算机技术、网络技术、通讯技术使分布在全球的信息设备和各种信息资源跨越时空联系在一起,为人们发布、利用信息提供了巨大的便利。

( 2 ) 数字技术、多媒体技术把不同载体、不同形式的信息放在互连网上,只需一台计算机,不用借助更多专门设备接可以 上网浏览文本、图形、图像、声音、动画等信息。

( 3 ) 超文本和W W W 技术实现工 n t e r n e t 上客户机与服务器的集合, 将全部的W e b 站连在一起,将全部相关信息链接在一起,通过它可以存取世界各地的超媒体文件。

( 4 ) 人工智能技术、自 然语言理解技术、自 动索引技术、数据库技术以 及相应的硬件,使得快速将浩如烟海的动态信息进行过滤、筛选、整序、建库成为可能,同时为网络信息快速查询提供技术支持。

1.2 信息检索语言的类型

信息检索语言是用于标引和检索文献的标识系统,各种信息检索语言的基本原理是一致的。由于它们在表达各种概念及其相互关系时和在解决对它们提出的那些共同要求时所采用的方法不同,因而形成了不同的类型。按传统的分类方法,信息检索语言的种类有:

( 1 )按构成原理分为:分类检索语言、主题检索语言、代码检索语言:

 ( 2 )按学科或专业范围分为:综合性语言和专业性语言;

( 3 )按语种分为:单语种语言和多语种语言;

( 4 ) 按标识和组合使用方法分为:先组式语言和后组式语言。

将表示各种知识领域 ( 学科及其研究问题)的类目 按知识分类原理进行系统排列并以代表类目的数字、字母符号 ( 分类号)作为文献主题标识的一类情报检索语言,亦称类法。使用分类检索语言建立的文献情报检索系统能够使检索者鸟瞰全貌、触类旁通,对系统地掌握和利用一个学科或专业范围的知识和情报十分方便、有效。

分类检索语言可分为等级体系分类语言( 等级列举式分类法) 和分析一综合分类语言(分面组配式分类法)两种。等级体系分类语言属于先组式语言,分类体系明显,容易理解,但因其采用列举式列类方法和类目的单线排列方式,所以存在着不能无限容纳概念的局限性和集中与分散的矛盾.分析一综合分类语言就本质而言属于后组式语言,不过通常采取先组散组式的使用方式,它基本克服了等级体系分类语言的缺点,但分类体系不够明显,较不易理解。

使用语词标识的一类情报检索语言,亦称主题法。其基本的、共同的特点是:

①用自 然语言中的名词术语经过规范化后直接作为文献主题标识, 直观性好; ②按字顺序列排列标识, 检索者较易使用; ③具有按文献主题( 文献所论述的事物) 集中文献情报的功能,对有关某一事物的检索效率较高;④用参照系统及其他方法间接显示文献主题概念之间的关系, 其系统性不及分类检索语言,对一学科或一专业文献作全面、系统的检索比较困难; ⑤较接近自然语言,所以较易与自然语言结合使用。主题检索语言根据其发展的历史可分为标题法、单元词法、叙词法和关键词法等。

自然语言从广义上说,指人们日常说话、写文章和交流思想所使用的语言。有人将自 然语言定义为文献作者所使用的书面用语。在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参考文献中的具有一定实质意义的词语。自 然语言检索在机检系统中,尤其在网络检索中得到了广泛应用。

1.3网络环境对信息检索语言的影响

自2 0 世纪9 0 年代以来, 以I n t e r n e t 为核心联接起来的全球计算机网络, 使传统的相对集中和规范的文献数据库及其检索系统面临挑战。在网络环境中, 传统的“ 提问 一检索” 模式已逐步被 “ 浏览一查询”模式所取代。与此同时, 网络环境中信息检索的理论与实践研究也都围绕这一模式展开。

1.3.1自然语言与受控语言的比较

自然语言和受控语言是当前信息资源标引和检索中两大语言类型, 在性能上各有其优点和不足之处。

受控语言与自然语言相比,有许多不可替代的优势:

(1)通过词形控制和词义控制,使同义词、近义词的联系得到揭示,可以检出同一概念的对象,增加查全率:同时,对同形异义词的含义做出,使得检索结果更加准确,提高检准率。

(2)把语义相关的词联系起来,对词间关系进行结构化处理,建立语意关系网。在计算机检索系统中可以多种方式显示,能引导用户进行相关信息查询, 减轻用户智力负担,便于扩检和缩检,满足不同检索需求。

(3)压缩词汇数量,使得词汇所占空间或篇幅较小,便于进行各种处理。

(4)受控语言如分类语言,具有对信息资源集合系统组织和管理的功能。

人工语言 ( 即情报检索语言)的不足主要有:标引速度慢、处理时差大、对标引人员要求高、 标引成本高、一般用户使用困难:一部严格控制词表的编制和维护,需要花费巨大的人力物力和财力,增加系统的费用;在新概念接受方面显然不如自 然语言,不能及时更新。

采用自然语言检索较受控语言检索有许多优点:

(1)可以降低标引难度及成本,从而提高标引速度,缩短时差:

(2)直接使用文献用语和作者用语检索能更好地体现文献本体内容,可以改善标引的专指性和一致性,从而提高检索的效率:

(3)各学科的用户在进行检索时一定会感到使用本学科领域的自然语言要比使用受词表方便得多;

 (4)用自然语言标引和检索文献,它可以使用在文摘、索引或文献正文中出现的任何一个有实际意义的词,不仅可以指定检索的两个词必须在同一段落或同一个句子中出现, 甚至还可以指定两个词间不超过多少个间隔词,因而保证较高的检准率;

(5)采用用户熟悉的自然语言,符合用户检索习惯,减少了概念转换中产生的失真;

(6)由于自然语言标引或无标引检索多采用自动处理方式,省略编制词表和词汇的智力负担;

(7) 符合客观需求,不受,随时输入新词语,可以紧跟科学的发展,及时反映新事物、新概念;

(8)自然语言标引检索入口 词多,有利于提高检全率;操作简单方便,灵活比较适合没有专业知识的广大网络用户使用等。

1.3.2自然语言与受控语言结合的趋势

从网上自然语言使用的情况看,问题并不那么简单。 如选词不加严格控制,会导致词语量过大, 过多占用磁盘空间,从而影响主题的集中,降低查准率。同时,由于自然语言对多义词也基本不加控制,往往使相关主题内容的文献分散,从而造成漏检.。受控语言与自然语言存在的这种互逆相关性,恰好说明它们在网络环境中兼容、整合的必要性。

结合人工语言和自 然语言使用的不同特点,作者建议采用以下模式:

简略的人工语言标引十 自 然语言检索十 较完善的后控技术进行控制,简述如下:

( 1 )简略标引。检索语言学家F·W·L a n c a s t e r提出:“当今的趋势,显然是朝着简化情报系统的方向发展”; “ 我们可以通过一种控制不太严格的词汇,在标引上少花些时间,以及将较多的功夫下在输出阶段的检索和筛选上”;“人们可以用一种粗略的小型词表进行花费很小的简易标引, 来辅助一个用可检文摘形式组成的机读数据库”。比如用简单的分类或主题索引将文献粗加归类,如目前的许多数据库所做的那样,如中国学术期刊光盘(网),就分为政治经济法律、电子科学、文史哲、 教育与社科综合等类:而许多网上数据库或搜索引擎是按主题归类, 如Y a h o o , S o h u 等。 这样,在查询时先选择大致类目或主题,然后再查,应能减少发生词义混同的现象。 还可加上简单的地理、时间、文种等方面的,使检出文献的专指度达到一定程度。现在的问题是如何使这样的简单标引能好用而又准确,于是元数据应运而生,尤其是都柏林核心集因在网络信息资源组织方面的显著优势,受到人们广泛关注。

( 2 )采用自然语言检索,不受人工词表。科学编制检索表达式,尽量充分、准确表达用户的检索要求,大量编制入口词表有尤为重要。

( 3 ) 较完善的后控技术由人工智能系统或后控词表系统对用户的检索需求加以分析、 综合、归纳,转化为系统可接受的语言,然后进入系统开始查询。人工智能系统是一种理想的检索辅助系统,它应能够接受用户的自然语言检索需求,加以分析并将其转化为规范的检索要求,指令机器寻找出符合用户需求的结果。目前没有这样一种系统进入使用。但我们可以退一步,用另一套目 前可行的办法加以弥补自 然语言检索的不足,即编制一套科学、合理、与数据库配套的后控词表附在数据库中。 这里所说的科学合理, 指的是应由 各学科专家挑选,准确反映各事物主题概念,尽量不含歧义。当用户用自 然语言输入检索要求后,系统加以分析,从后控词表中 选出相应的、规范的检索词( 也可能是一组词) 供用户挑选, 用户挑选与自己的检索要求最贴切的词进行检索。这方面已有实例, 如美国u ml 数据库。这样可修正自 然语言检索的不足,提高检索效率和检准率。其中的关键是后控词表的编制应经仔细斟酌,应以能最准确表达事物主题且为该专业内普遍承认和使用的词汇为宜。

2 网络环境下传统信息检索语言:分类检索语言的应用

2.1传统分类法电子化及在网络上的应用

 网络信息组织一般是按照信息的范畴 ( 分类)和事物的概念( 主题)组织信息。网络查询工具也分为按范畴浏览的工具和语词查询的工具。现有 工 n t e r n e 七上著名的检索工具Y a h o o ,  E x c i t e , 工 n f o r s e e k 等, 实际上都在自 觉或不自 觉地借鉴了分类法组织和揭示信息的思想;而A l t a v i s t a 集成的A s k j e e v e s自 然语言搜索引擎则以主题词为组织与揭示信息的重要途径和方法。

2.1.1 分类法的电子化

 网上受控语言的应用研究始于分类法的电子化和叙词表的自 动生成。分类法的电子化为分类法在联机和网络环境中的应用提供了数据保证和技术支持。目 前,分类法的电子化及电子版分类法在联机和网络环境中的应用研究仍然是情报检索语言研究的一个热点。

国内分类法的电子版发展史上具有划时代意义的事件是 《 中国图书分类法》电子版的出版发行。 2 0 0 1 年7 月,由《 中国图书分类法》编委会和丹诚软件公司联合研制的《 中图法》( 第四版)电子版由北京图书馆出版社正式出版。该电子版是在 W i n d o w s平台上开发的,有单机版,也有网络版。它的问世填补了我国没有电子分类法的空白。

《中图法》( 第四版)电子版的特点:

①完整的数据格式

《中图法》(第四版)电子版,在C N M A R C 基础上,参考U S M A R C 的成功经验,并结合 《中图法》的自 身特点研制而成。这种数据格式比较全面的描述了《中图法》类目的内容与属性,便于和国际通讯格式接轨,又较好地照顾了 《中图法》本身的特点。

②方便的显示和浏览功能

运用等级展开的类目 树、浏览窗、详细窗、M A R C 记录窗、临近类目窗,以及超文本技术,为用户提供了宏观结构、类目的上位类和下位类环境、类目 细节等多种浏览形式;使用多窗口同时显示不同的浏览检索窗;各个窗口 可以任意布局和互动;各种浏览方式之间和各窗口之间可以随意跳转,从根本上克服了线性体系对多层次浏览的制约。

③完备的检索和统计功能

《中图法》电子版的检索功能包括:分类法的各个范围的检索、各种匹配方式的检索、布尔逻辑检索、各种限定因素的检索、电子分类法各个要素的检索。这些功能使用户可以根据不同的需要以任意条件进行快速检索,同时也提供相应的统计功能。

④通用的编目 接口

能与各种编目 系统接口 是电 子分类法的必备功能, 《中图法》电子版不但以 剪贴板的方式解决了与各种编目 软件的通用接口,同时用 d a t a t r a n s 语言编写了系统的开放式接口,可供用户或软件开发商连接使用。

⑤实用的评注功能

在使用电子分类法时又能管理分类法的“ 使用本” , 这对一个单位的分类工作与规则管理是十分重要的.《中图法》电子版的评注功能完备,在使用网络版时,只要一个客户端对类目下的评注作了修改或添加,那么其他所有客户端便会同步显示,这就为电子版的管理带来了很大方便。

⑥方便友好的用户界面

电子分类法既是面向标引用户和检索用户的分类法,就应尽可能地每一个细节考虑用户使用的方便性。 《中图法》 电子版界面清晰有序, 在启动各种功能时一般都提供多种调用方式,以满足不同用户的习惯。详细的帮助系统能解答使用中遇到的各类问题。

 ⑦为主题检索的兼容留有余地

分类主题一体化既是文献信息标引的方向,也是文献信息检索的方向,《中图法》电子版在格式设计中也包括了与 《中国分类主题词表》相连接的各个字段,能充分描述主题词及其词间关系,很容易把主题词表挂接上,为实现检索语言的分类主题一体化奠定了基础。”

总之,《中图法》电子版的出版发行将对我国文献信息整序工作、分类法理论研究以及相关软件的开发产生深远的影响; 为其他综合性分类法和专业分类法电子版的研制提供了可供借鉴的经验;为 《中图法》的网络版的开发奠定了数据基础和技术基础。

2.1.2 分类法的网络版及在网络上的应用研究

2 0世纪8 0年代以来,人们对世界上主要几部分类法如:D D C ,  L C C ,  U D C在联机环境下的应用进行了大量研究, 发现分类法在组织和检索网络信息资源方面有独特的优势,主要表现在:

①以分类方法组织信息符合人们认识事物的逻辑思维习惯, 能满足“ 物以 类聚”、“ 鸟瞰全貌”、“ 触类旁通”的检索要求:②将检索限定于特定类目,可提高检准率: ③分类体系结构可显示检索词的上下文,利于调整检索范围;④以知识分类为基础,以符号为标识,便于不同文种、 不同类型分类法的国际兼容; ⑥通过分类浏览, 可方便地检索难以确定名称的新事物、新知识。 ⑥比较适合于组织和检索网络上的大量非文本信息。网上受控语言的应用研究发端于分类法的电子化和叙词表的自 动生成。通过网上对D D C ,  L C C 和U D C的调查研究,总结网络版异同点, 各大分类法在网络信息资源组织与检索方面都采用较为先进的技术与措施满足网络用户信息查询需求,基本达到满意的效果,并为许多网站直接使用。

( 1 )杜威十进分类法 ( ( D D C )网络版

杜威十进分类法 ( D D C )在其版权所有者O C L C的努力下,由美国国会图书馆的杜威编辑部在 “ 视窗杜威”的基础上于2 0 0 0 年7 月率先推出了其网络版。D D C网络版的主要特征有:

1使用的浏览器界面, 用户可以对D D C 及相关的术语进行高效的检索和浏览。

②包含了数千个D D C印刷版中没有的相关索引词有组合类号,就是通过在相关词表中增加专指词来表征指向分类表中没有列出的复杂概念,并给出根据若干类号组合而成的相应类号。

③包含了映射到D D C 类号的约9 0 0 0 0 个标题, 即由D D C 编辑映射( ( E M ) 的国会标题表( L C S H )标题;由编辑映射的儿童标题表 ( S H C )的标题;O C L C的N e t F i r s t( 因特息资源目 录)中由人工映射 ( ( N F )的L C S H 标题;根据O C L C 的W o r l d C a t ( 联机联合目录) 记录中标引的杜威分类号和L C S H标题;由计算机依据特定算法自动统计映射 ( S M )的L C S H标题:以及 “ 视窗杜威”中统计映射的L C S H 标题。

④具有为因特网 信息资源自 动分配候选类号的功能。 因为W e b D e w e y 包含了分类号与L C S H

标题之间丰富的映射关系以及分类号与类名、相关索引词的对应关系,不仅可以显著提高分类人员利用D D C 类分新概念的能力,而且有利于实现计算机辅助分类。

⑤建立了从映射的L C S H 标题到L C S H 规范文档的链接.由于D D C 与L C S H 的映射关系, 用户可以轻松地从类号所映射的主题词链接到窗口内的规范文档记录,而不用离开W e b D e w e y 。反之,用户可以 搜索并浏览整个L C S H 规范文档, 在此帮助下选择比 较适合的D D C类号。

⑥提供用户注释功能, 允许用户把自己的注释增加到W e b D e w e y 中,以反映出当地的分类惯例。这种注释分为机构注释和个人注释两种。 机构注释是机构中的全部用户都能看见并参考使用的,个人注释被个人授权号所限定的个人看见。

⑦具有浏览和检索功能。在主界面上设有浏览输入框和检索输入框,并且提供多种不同的浏览和检索范围选择。浏览和检索功能各有所长,可择其优而用之。

⑧提供从类目记录到手册记录的链接,方便调出手册记录的窗口。

⑨新增加了“浏览结果”功能,类似于己经有的“检索结果”,使用户可以任意选择新的浏览或前的检索而不必返回开始屏幕。

⑩按季度更新。

( 2 )国会图书馆分类法 ( ( L C C )网络版

美国国会图书馆于2 0 0 1 年正式推出了L C C 的网络版一一C l a s s i f i c a t i o n W e b 。只要经过订购注册,全世界范围内的用户都可以通过网络进入、检索、浏览全部的国会图书馆分类表及L C S H .  2 0 0 1 年来自 世界各地的6 9 7 8 名用户并且常常是每天4 0 0 个用户参加了该软件的试用试验, 之后, 国会图书馆著录发行部( ( C D S ) 根据用户的对试用的反映对C l a s s i f i c a t i o n  W e b进行了优化。该软件产品的经理C h e r y l C . C o o k评价说: “ 将国会图书馆分类法和标题表合二为一使人们易于明白 两种体系之间的关系并能方便地找到所需的精确信息。

国会图书馆分类法网络版具有以下特点:

①全文显示全部的国会图书馆分类表。

②包括能够以 词表方式显示和检索的L C S H 及相应的L C C 分类号。 建立L C C 分类号与L C S H标题之间的对应关系。

③L C C 数据库每周更新一次,为用户提供最新的准确数据。

④提供浏览或检索的选择。可以在类目等级的任何层次浏览分类表;可以用类名、关键词 ( 类名的) 、索引词、类名或索引词、分类号进行简单检索或复杂的布尔检索。

⑤在检索结果中可以进行完整的或部分的等级显示。

⑥既可分别对主表和复分表进行浏览和检索,也可以同时对主表和复分表进行浏览和检索。

⑦具有强大的类号计算功能,当使用复分表时,可以自 动计算并组合复分表与主表的分类号,能够完整显示被计算的类号及相应类名。

⑧可以建立永久的惯例或者个人注释或者类号之间的超链接;个人注释内容并没有存在本地电脑上,而是与登录号相联系,因而只要输入用户口令,它将可以在任意一台机上显示出来。用户可以在任意类名后面建立4 个以内的注释。

⑨为很多主要的买主系统提供连接本地网络联机公共检索目 录 ( W e b  O P A C )能力。          

⑩可以以M A R C 显示L C C 和L C S H 记录, 可以 链接到一个预先设定的机构O P A C s 列表“ 。

( 3 )国际十进分类法 ( ( U D C )网络版

U D C 的英文网络版U D C  O n l i n e  B S 1 0 0 0 由 英国标准出版销售有限公司与英国标准出版有限公司联合出版。 用它可以标引各种类型的文献,尤其是非传统媒体的文献, 包括多媒体收藏、动画、地图集、艺术收藏和研究性资源的网上目录等。其主要特点有:

     ①包含国际上正式的U D C 数据库的完整内容。

     ②可以通过网络获得最新版本。

     ③分类号构造工具可以帮助用户在屏幕上构造复杂的U D C 类号。

     ④可以网上检索和观看。

     ⑤剪切和粘贴功能可以节省时间并且避免抄写错误.

     ⑥屏幕设计实现界面友好。

     ⑦提供多种检索和浏览策略,如:自 然语言的字符串检索、布尔检索、分类号检索,利用简表进行浏览,或者依据类目等级向上或向下浏览分类号。

     ⑧具有平台兼容性,可以 在任何兼容H T M L 的平台上使用。

"

项目

W e b D e w e yClassification Web

UDC online
检索浏览途径分类号

类名

L C S H( 各种映射

L C S H( 编辑映射

相关索引

相关索引 ( K W I C

注释

所有途径 (检索)

分类号

类名

索引词

L C S H 的相关标题

分类号

术语 ( 类名及

释中的)

简表( 1 , 2 级类)

查询方式

浏览

简单检索和布尔检索

浏览

简单检索和布尔检索

浏览

简单检索

布尔检索

匹配方式

前方一致

截词匹配

题内关键词方式

敏感检索 ( 可选)

( 大小写与重音符号必须匹配)

精确匹配 ( 可选)

( 不能进行截词检索) 或截词匹

题内关键词方式 ( 类名)

前方一致

题内关键词方式

记录显示方式

类号及类名

完整等级

注释

相关索引词和 L C S H

标题

类号及类名

非等级、部分等级、

全部等级 ( 可选)

多种链接标志符

类号及类名

注释

隐藏的帮助信息

部分等级

2.2 分类检索语言在网络信息检索工具中应用

     现在网上信息资源中非文献型信息占的比重越来越大,比如:图形、图像、声音、动画等,分类法独有的聚类功能和代码标识,这在组织和揭示多媒体信息中占 有极大的优势;按事物与学科范畴分类组织网上信息资源,具有层次清晰、逻辑严密、体系稳定等优点,而且符合人们的一般查询习惯,同时不受语种,因此分类组织法可能成为新世纪网络信息资源组织、揭示的工具,成为国际通用信息检索语言。

    网上现在主要有两类分类体系:一类以 传统分类法的简本为结构,类目级别一般为二、三级,基本保留原有体系,主要用于学术性信息资源的组织与查询;另一类是指南型分类体系, 其设计主要用于从普通用户出发, 用于通用性网络信息资源的组织与查询。 它根据需要,构建新的多为维分类体系,揭示信息空间联系,适合网络环境,并且积极探索新的改进技术和方法。 尽管类目的划分和设置存在许多不合理的地方,但它多是“ 应需而生” ,具有很强的适应性和实用性,在相当长的时间内会逐步发展成为通用性网络信息资源组织的主流。

2.2.1 网络值息分类存在的问题及解决方案

     ( 1 ) 知识领域不全,知识体系不严密。

     一个完整的综合性分类体系在划分基本大类时应该将所涉及到的知识领域全部涵盖进去,而目 前一些搜索引擎在划分类目时往往只从商业角度考虑如何吸引用户,并未真正从知识领域、知识体系的角度来分类,因而使得分类体系遗漏掉了许多重要的知识领域,同时又有重复列类的现象,体系的系统性和完整性受到很大影响。如 “ 悠游”未设置自然科学和政治大类; “ 雅虎”的基本大类中没有设置工业类和农业类等基础性类目,而是将这些类目作为二级类目、三级类目 或分散到其他类目中,这就加剧了集中与分散的矛盾,造成知识体系混乱。

     ( 2 ) 类名不规范,类目 归属不合理。

     网络分类体系的类名是一个十分明显的问题。首先,类名不规范,各搜索引擎在类名的叫法上随心所欲,如“雅虎”称“ 电脑”,“ 搜狐” 称“ 计算机” : “ 雅虎”称“ 因特网”,“ 搜狐”称 “互联网” 。作为类名,电脑显然显得不够专业;而关于I n t e r ne t ,原国家电子工业部早就规定统一称因特网;其次,类名概念不清。网络分类体系中的某些类名的含义和范围难以确定,再加上又无必要的注释,用户往往不易判断其外延。如 “ 雅虎”的“ 科学:另类科学” 、“ 电脑与因特网;训练”, “网景”的 “观点”等,如无注释就不知道包含什么内容;再次,类名有时不能确切概括类目的内涵。如“ 雅虎”的“ 社会科学”大类下, 收入地理学、经济学、区域研究、人类学与考古学、心理学、政治学、社会学等等,远远超出了类名的范围,有的只具有一些象征意义.除类名不规范外,网络分类体系在类目归属问题上常有隶属关系不清、逻辑关系混乱的情况。 例如,“ 首都在线” 将知识产权法放在科学技术类,“网易” 在文学类下列出宗教,“ 搜狐”把留学与移民列于工商经济类中等等。这样的一些归类显然不是按照知识概念之间的隶属关系来确定的,不利于分类体系的有效使用。

     ( 3 ) 类目排列随意, 类目划分无规律。

     同位类的排列有多种标准,不少网络分类体系的同位类展开时都采用这些不同标准,而每一种标准使用时又并不完整,有时还同时列出不同等级的类目,使得类目的划分缺乏必要的规律性,甚至出现跳跃式划分。例如,“雅虎”大类中“ 电脑与因特网”与“ 科学”并列,“人文艺术”与“社会文化”、“社会科学”概念兼容;又如 “搜狐”的教育类,有高等教育无中等教育和初等教育,有国内院校无国外院校,有音乐教育无素质教育,甚至还冒出一个聊天与B B S 。这些问题都是缺少严格的词汇控制所导致的。

3.对于分类搜索引擎类目 体系存在的问题,解决方案和措施有:

    ( 1 )应遵守基本的逻辑原则:①保持从总到分的展开序列,上位类应能涵盖下位类,

不能在类目 展开中出现上下位类颠倒: ②研究多元划分时划分标准的类型, 研究此情况下类目之间的关系和规律,逐步形成常规使用的模式;③一个类下包括的类目范围不能过广,不能把不相从属的类目收入其下; ④类名应该正确反映类目的内涵和外延关系,在生动、鲜明的同时准确反映类名的含义。

   ( 2 )解决好类目的排列问题。在西文搜索引擎中对同 位类采用字顺排序, 有其自 身的优势, 但对汉语来说, 优势并不明显。在排序中参考检索频率的因素方法,也因其类目 体系的稳定性受到影响而不足取。 若对同位类采用系统排列法则具有更多的优势。因为①可以揭示类目 之间的联系, 方便相关类目 的查找; ②利于结构类目 的排列,明确类目的含义; ③增加类目 排列的一致性和可预见性。

    ( 3 )在横向类目 关系处理上,针对同一性质类目 缺乏整体性、一致性,部分分类体系类下的范围过宽等问题,应对横向相关类目的链接加以适当。

3 .1主题检索语言在网络信息检索工具中的应用

搜索引擎信息检索的方法除了分类方法外,几乎毫无例外地提供了主题检索方法。关键词法将信息原来所用的,能描述其主题概念的关键词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法,它是直接使用自 然语言的一种方法。 关键词法选词灵活、广泛,适应性强,组织揭示网络信息速度快、专指度高、查准率高,适宜于不同用户层次检索网络信息。关键词检索已 经成为网上绝大多数搜索引擎最重要的检索方式。                   

叙词法取自自然语言并加以规范化的语词作标识,严格以概念组配为原则当遇见到某写概念的表达使用组配回产生意义失真时,就直接选用词组,因此在很大程度上克服了检索“ 噪音” 严重的缺点。叙词标识是组配的,比较灵活, 在检索中可采用布尔逻辑式构造信息检索式,适合计算机信息处理,便于网上信息资源检索。关键词与叙词相结合的形式有利于对网络信息准确描述、科学组织。

现以著名搜索引擎G o o g l e为例,说明关键词检索的基本思路。就基本搜索而言,查询简洁方便,仅需输入查询内容然后回车即可得到相关资料。使用 G o o g l e丰丝 素不需要输入. , A m ”因为检索系统会在各关键词之间自动添加,是默认情况。G o o g l e能够提供全部符合查询条件的网页,如想缩小搜索范围,只需输入更多的关键词。与其它多数搜索引擎的区别在于:只显示相关的网页,其正文指向它的链接包含您输入的所有关键字,无须受其他无关结果的干扰。 G o o g l e 高级检索可按检索者自己的要求, 进行各种限定, 查询更符合需要的网络信息。总之,大多数搜索引擎提供以下高级的关键词查询功能,对检索用关键词进行。

 ( 1 )布尔查询 绝大多数搜索引擎都有布尔逻辑查询功能,但使用运算方式不同,有的采用命令驱动方式, 使用布尔运算符; 有的使用菜单驱动方式, 用菜单代替算符进行逻辑运算。

( 2 )精确查询 又称词组查询,是将一个词组当作一个的运算单元 ( 一般加双引号) ,进行严格匹配, 可以提高检准率, 尤其在中文单汉字检索系统中, 精确查询明显改善检准率。

( 3 ) 模糊查询 也称概念查询,它不仅可以根据输入的关键词进行查询,而且会自 动使用关键词的同义词和近义词查询,这种方法可提高查全率。

( 4 )截词查询 在搜索引擎中,提供右截词的占多数,截词符一般采用星号 “ * ’ , 。

( 5 ) 字段查询 将关键词查询限定在特定字段进行检索的功能, 主要限定的字段有题名、 U R L ,主题等。

 ( 6 ) 位置查询 目前提供位置查询的搜索引擎并不太多, 一般提供临近位置运算符,即N e a r运算。

 ( 7 )查询 可将关键词查询限定在特定信息范围内进行,信息的范围主要有网络系统、信息资源类型、时间段及语种等。

关键词法具有良 好的发展前景其原因在于:

①计算机数据管理系统的应用, 为关键词语言的自 动标引和抽词标引提供了强有力的技术支持和保障;

1着人们检索和标引实践的观念改变,关键词语言有了广泛的用户基础,它的检索习, 质和技巧容易被读者所接受,这是一种语言普及的最基本的先决条件;

2关键词语言是人工语言标引向自 动标引过渡的桥梁, 在建立文献数据库的实践中, 实现文献的自 动标引是一个发展趋势,在实现自动标引之前,先用关键词标引然后再标出与

关键词同一或近义的叙词,这样就可以使关键词与叙词基本对应,实现自然语言向受控语言靠近,逐步实现机器的自动标引;

3键词语言标引+后控词表的方法,是关键词语言向自动化建库与检索的转折点。

4 自然语言处理与自然语言检索

 自然语言处理技术在网络检索中的应用领域主要涉及文本检索。文本检索已从简单的基于文本的匹配查找发展到超文本检索和借助叙词表的文本检索。目 前,自 然语言处理技术在文本检索中的应用主要有:基于理解的自动标引和检索技术和跨语言检索技术等。传统的自动标引原理主要是基于词频统计和术语加权, 不需要词典。 为了提高系统对文献的理解能力,研究者提出了借助词典对文本进行标注并进行句法分析的办法,找出单词的相似性联系。在此基础上,人们又提出从语法、语义和语用三个层次来表征文献,改进自 动标引模式,收到了较好的效果。基于理解的检索涉及到理解用户的自 然语言提问,要求系统不仅要理解用户明确表达的意义,还要挖掘出用户提问中未直接表达的意义,以满足用户用真正的自 然语言句子来表达提问和实施检索的要求。用户提问理解技术的基本原理与自 动标引基本一致。

 4.1自然语言检索概述

    自然语言检索,从技术上讲,就是将自 然语言处理技术应用于信息检索系统的信息的组织、标引和输出。而从我们广大用户讲,就是把自我语言作为信息提问输入和对话接口的检索方式。正像受控语言当时作为检索语言那样,受控语言是为克服自 然语言的不足而产生的,但受控语言的出现并未解决自然语言的一切问题,反而带来诸如专业性太强、使用不便,维护更新困难等新问题。而自然语言本身的特点又是对规范语言先天不足的弥补,使得人们转而研究自然语言,并把它作为信息检索过程中的语言保障。就自然语言本身来讲,它很早就被纳入了信息检索语言系统。只是由于长期以来检索手段落后,使得规范化语言在当时文献量有限的情况下,发挥出了方便快捷的作用,使得当时并未显 露出优势的自然语言逐 渐被“ 规范化”的分类语言和主题语言 所替代。

     随着文献数量的急剧增加和电子计算机技术的不断更新换代,规范语言越来越不适应用户的检索需求。关键词这种自 然词语和可以用 “ 后控”方法改造的一部分不够规范的自 然语言以其自身的优越特点和计算机等先进技术的结合,较好满足了用户的需求愿望,重新受到了重视。

计算机信息检索的出现和发展促进了情报检索语言的发展和创新,如词表、分类表向机编化和机读化方向发展,文献标引和索引编制走向自 动化等极大地推动了自 然语言检索的发展。同时全文数据库的相继出现,也加速对自 然语言检索的 研究.因全文数据库装入的是各种信息的自由文本,文本的各种大小知识单位均可作为其检索标识,从理论上讲全文检索能挖掘出库内存贮的全部内容,而对全文数据库进行检索的最方便、最常用的检索方式便是自然语言检索。 

5. 网络信息检索语言新发展

5 . 1分类一 主题一 自然语言一体化

   “搜索,是I n t e r n e t 永恒的主题和魅力”,在需求驱动下的搜索才能促使把无序的信息转化为知识。把信息的分类组织和字顺组织有机地结合起来,把分类检索和字顺检索有机地结合起来,把自然语言检索和人工语言控制结合起来,是在相同技术条件下对网络信息行整序、控制和检索的最有效方法。互联网上信息的数字化和软硬件技术条件为分类查询和主题查询的真正结合奠定了基础。

    分类语言、主题语言和自然语言一体化的实质,是在类名 ( 或分类号) 、主题词、关键词之间建立对应关系,以便互相转换,互相控制。如果说在一个完善的现代检索系统中,按分类系统检索的功能,按主题事物检索的功能和按自 然语言检索功能是必备的三大检索功能,那么一体化在提高检索性能上的作用有:

    ( 1 ) 通过关键词一主题词的对应,将检索提问所使用的关键词转换成主题词,再转换成多

个同义关键词扩展检索式进行检索,可在不影响检准率的情况下提高检全率;

    ( 2 )通过关键词~ ( 主题词)~类名的对应转换;

   ·作为分类体系的自 然语言接口,当用户不清楚他所需要的文献信息属于何类时,关键词起着类目 索引的作用,可通过关键词进入分类系统,这是一种分类检索的易用化措施;

   ·在网络信息检索工具的关键词检索中,可转向分类类目, 把检索限定在类目 范围内 进行,以排除无用信息;或先在类目范围内进行,可先检出高质量信息,因为供分类浏览检索的索引数据库是经过人工剔选的;

   · 作为分类体系的自 然语言接口,也可供分类标引人员使用,不但可提高分类标引速度,还有助于提高分类标引的准确性和一致性;

   · 反映关键词一 (主题词)分类类目对应关系的对应表,可作为在自动抽词基础上的半自动分类标引的工具,这是目 前最可能实现的分类标引自 动化方案。

    ( 3 ) 通过分类类目 ~主题词的对应, 可选择合适的主题词进行检索,等于细化了分类体系,可提高检准率。

5.2学科一事物概念组配型检索语言

这种情报检索语言的本质属性可以归纳为: 学科聚类系统与事物聚类系统的结合、 先组式语言与后组式语言的结合( 确切地说是体系分类法与组配分类法的结合) 、人工语言与自然语言的结合、号码标识与语词标识的结合、不变概念代码与可变概念体系的结合。这种情报检索语言模式的主要实现方法可概括为“分面分析+概念代码+概念对应转换+ =数据库技术”。这种情报检索语言是:分类法与主题法彻底一体化的, 充分发挥情报检索语言对知识进行系统组织和对自 然语言进行规范控制功能的, 用户可以方便地进行标引和检索的, 概念可不断增补及概念的代表词可进行更换的, 用户区别不出是自 然语言还是人工语言而其实是由严密的人工语言控制的, 修订不受已标引文献所牵制, 故分类体系可逐步完善的,并可以挂接英文索引、分子式索引等以及可用于机助标引的。

这种综合化的检索语言具有以下一些优点:

    ①通过学科聚类和事物聚类的结合、 号码标识和词语标识的结合以及系统序列和字顺序列的结合,实现分类系统和主题系统的完全一体化。 用户从自 然语言词汇、 分类号和主题词任一途径入口 检索,都能获得相应的文献;

    ②通过先组式检索语言和后组式检索语言的结合、 体系分类法和组配分类法的结合使后控语言体现出先组语言的体系性、概念明确性和易用性;

    ③通过实现自 然语言和受控语言的结合, 增强了其易用性, 用户可以使用人工语言也可以使用自 然语言检索;

    ④不变概念代码与可变概念体系的结合便于分类体系的逐步细化和不断改造。 词语标识的更换,不受对文献已作标引的影响,分类体系的变换使概念可有多向隶属。 任何分面都可以集中文献和系统地展示文献主题,各分面又可任意组配检索。

    ⑤这种检索语言具有开放性, 可不断增补新概念9 9

    学科一事物组配型检索语言是朝着检索语言综合化和一体化进行的一次理论尝试。目前,该模式正处于理论研究阶段。

参考文献

[1]张琪玉. 情报语言学基础 ( 增订二版) .武汉:武汉大学出版社,1997 ,9

[2]邹永利. 情报检索系统文献主题表征与用户需求表征.情报理论与实践,1998(3):132—135

[3]胡建平. 情报检索研究的认知观与情报检索语言的发展趋势.情报杂志,1999 ( 6 ) : 63—65

[4]曹树金.国外情报检索语言与自然语言检索.情报学进展( 1 9 9 8 - 1 9 9 9年度评论) 第三卷,张力治主编. 北京: 航空工业出版社,1 9 9 9 . 1 0 , 1 2 6 - 1 4 1

[5]刘湘生. 在全国分类法、叙词表发展学术研讨与成果展示会上的总结发言.中国图书馆学报,1 9 9 6 ( 6 ) 5 - 7 )

[6]郑贵宇. 我国检索语言国际兼容初探. 情报学报,2 0 0 1 ( 4 ) :4 7 8 - 4 8 2

[7]焦玉英,索传军. 网络环境中信息检索理论与实践的发展. 图书情报知识2 0 0 1 ( 1 ) : 2 -6 , 7 2

[8]张雪英,侯汉清. 叙词表词汇转换系统的设计.情报学报,

   2 0 0 0  ( 5 ) :  4 5 1 一4 5 7

[9]张雪英.分类表一叙词表转换系统的设计.情报学报,2 0 0 0 ( 4 ) : 3 4 3 一3 4 8

[10]张琪玉. 张琪玉情报语言学文集, 北京: 北京图 书馆出 版社.1 9 9 9 . 5 :  1 7 4 - 1 8 3

[11]张琪玉.我国情报语言2 0 年来的进步与向2 1 世纪前进的目标.图书馆,1 9 9 9 ( 4 ) : 1 一7 , 2 1

[12]黄敏.自 然语言处理与信息检索,图书情报工作,2 0 0 1 ( 4 ) 4 1 -4 4

[13]胡朝德,叶新明. 网络时代情报检索语言的路向. 情报理论与实践,

    2 0 0 0 ( 4 ) :2 4 1 - 2 4 2 , 2 5 0

[14]寇均锋. 论情报检索语言的自 然语言化发展趋势. 中国图书馆学报,

    1 9 9 9  ( 3 )  2 8 - 3 1

[15] 严峰. 论现代信息技术条件下检索语言的应用及检索效率变化.

     中国图书馆学报,2 0 0 1 ( 6 ) 6 0 - 6 3

[16] 吴建中. 情报检索语言的发展趋势— 关于图书馆未来的对话之九.

     图书馆杂志,1 9 9 6  ( 4 )  2 9 -3 1

[17] 吴建中. 从人工语言到自 然语言— 关于图书馆未来的对话之十.

     图书馆杂志,1 9 9 6  ( 4 )  3 2 -3 4

[18] 张琪玉. 人工语言与自 然语言、先控制与后控制的界限 在计算机系统中可淡化或取消. 图书馆杂志,1 9 9 7  ( 5 ) :  6 -7

[19]张琪玉 网络信息检索用语言的发展趋势 图书馆杂志,2 0 0 1  ( 3 )  5 -7 , 2 2

[20]田书格 搜索引擎检索语言失控及其控制模式构想. 武汉大学硕士学位论文, 2 0 0 0 . 5

[21]张琪玉著.网 络信息检索工具的分类体系,见:网 络修订稿检索工具发展的方向与提高竞争力的途径,深圳巨灵信息技术研究所,2 0 0 1 . 4 , 5 4 -6 4

[22]俞君立,陈树年主编.文献分类学.武汉: 武汉大学出版社,2 0 0 1 . 1 0 , p 7 5 一1 1 0

[23] 陈树年.搜索引擎及网络信息资源的分类组织.图书馆情报工作,2 0 0 0 , ( 4 ) : 3 1 一3 7

[24] 马张华.分类搜索引擎类目 体系研究.图书情报工作,2 0 0 1 ( 2 ) 3 6 -4 0

[25] 傅欣,李伟.网络信息分类组织发展趋势探.析,图书情报工作,2 0 0 2 ( 3 ) 6 1 一6 5

[26] 张琪玉. 网络信息检索工具增强关键词检索功能的措施.见《 网络信息检索工具发展的方向与提高竟争力的途径》 ,深圳巨灵信息技术研究所,2 0 0 1 . 4

[27] 包冬梅.检索语言应用于工 N T E R N E T 信息资源组织之前景分析. 图书馆杂志,2 0 0 1 ( 6 ) : 8 -1 0

[28] 苏瑞竹,吴英姿.利用分类法和主题法改善搜索引擎的性能.情报科学,2 0 0 1 ( 1 1 ): 1 1 7 0 一1 1 7 5

[29] 邱君瑞,耿亦兵.主题词表在网络检索系统中的应用调查分析.图书馆杂志,2 0 0 1 ( 1 1 ): 2 0 -2 2

[30]王金夫.网 络信息资 源组织与情报语言. 情报杂志, 2 0 0 3 ( 3 ) : 2 4 - 2 6

[31] 赵丹 群. 试论 搜索引 擎技术改 进. 情 报理论与实践, 2 0 0 3 ( 3 ) : 1 8 5 - 1 8 6

[32] 吴慰慈.网络环境下信息存储与检索技术的发展.四川图书馆学报,2 0 0 3 ( 1 ) : 3 - 6

文档

网络环境下信息检索语言的应用研究

网络环境下信息检索语言的应用研究摘要信息检索语言是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统,其职能,是作为信息检索系统的语言保证,检索语言的质量直接影响着检索系统的效率。目前,网络信息检索工具主要是基于范畴层次(List-basedSearchEngines)的搜索引擎基于语词层次(Words-basedSearchEngines)的搜索引擎。著名的浏览型网络信息检索工具如、Yahoo、Eblast、Galaxy和大部分综合型搜索引擎实际上都是自觉或不自觉地借鉴了传统清报检索
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top