思考题:
1.什么是信息?简述信息的特点和分类?
我们认为,信息是事物或事物之间不确定性的量度,即负熵。掌握的信息越多,所需认识的事情的确定性就会越少。信息由信源,信宿和信道(载体)构成。
信息的特点:(1)客观真实性:客观、真实是信息的最重要的本质特性
(2)普遍性:信息是物质的普遍属性,物质是具有普遍性,所以信息也拥有该特性
(3)针对性:信息的作用和价值可以随着接受者的不同而不同
(4)传递性:过程:信息源(信息的发出者)——>编码—>信道(载体)—>译码—>信宿(信息的接收者)
信息源:是信息的发出者
信宿:是信息的接收者
信息的传播是双向的,的。信息源和信宿是相对的,也是可以相互转换的。
信道:就是在传播过程中,编码经过的物理通道
(5)时效性:指信息发出、接收到利用的时间间隔及效率,也包括信息的本身更新速度。客观物质不断的变化,反映事务的运动状态和运动方式的信息也会发展变化
一般而言,随着时间的推移,信息的价值会逐渐减少
也有反例:如考古信息(恐龙、古钱币),年代越久,使用价值越大
衡量信息的时效性参数不只是时间参数,还有地理环境
(6)可转换性:信息可以从一种形态转换成另一种形态
(7)可处理性(可识别性):可以通过人们的感觉器官所感知,也可以通过仪表、器械来检测进而予以识别。
(8)可共享性:指同一内容的信息可以在同一时间里被若干个用户使用,此时信息载体本身的信息量不会被磨损、消失
信息的类型:(1)按信息表现形式划分,可分为文字信息,图象信息,数值数据信息,语音信息。
▪文字信息:文字是人们为了实现信息交流、通信联系所创造的一种约定的形象符号。
▪图象信息:图象(形)是一种视角信息,它比文本信息直接,易于理解。如,一幅画、一部电影。
▪数值数据信息:数值数据是“信息的数字形式”或“数字化的信息形式”。
▪语音信息:人讲话实际是大脑的某种编码形式的信息转换成的语言信息的输出,是一种最普遍的信息表现形式。
(2)按信息的出版类型划分,可分为图书,期刊,会议文献,科技文献,专利文献,标准文献,学位论文,产品资料,技术档案,出版物。
(3)按信息的加工程度划分,可分为零次信息,一次信息,二次信息,三次信息。
▪零次信息:是指未经正式发行的或未进入社会交流的最原始的信息。如私人笔记、文章草稿等。
▪一次信息:是人们研究或创造性活动成果的直接记录,一般指公开出版的图书、期刊论文、科技报告、会议文献、学位论文、发明专利等。
▪二次信息:是对一次信息加工、整理而成的。如目录、文摘、索引等各种书目数据库是二次信息的核心。
▪三次信息:对一次信息所载内容进行单元层次(如一条消息、一个定义、一种观点等)的选择,经过汇集、综合、分析、评述等深度加工而成的产物。如评论、进展报告、述评、百科全书、年鉴、指南、期刊书目等。
(4)信息还可以这样划分
按信息内容划分,分为社会信息、自然信息、机器信息。
按时间划分,分为历史信息、未来信息。
按行业划分,分为工业信息、农业信息、商业信息、金融信息、军事信息。
按性质划分,分为定量和定性信息。
2.什么是信息检索?信息检索与情报检索、文献检索的区别是什么?
广义的信息检索,是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”,狭义的信息检索,仅指从信息集合中找出所需信息的过程,也是利用信息系统、检索工具或数据库查找所需信息的过程。
信息检索
信息的存储过程
信息源信息选择概念分析概念转换信息数据库
系统词表检索匹配
信息用户信息提问概念分析概念转换检索表达式
信息的检索过程
三个概念的区别
信息检索:存在于检索的整个过程.
情报检索:户.
文献检索:是一种方法,研究检索结果的形式,其最终结果仍然只是载体.
3.简述文献与信息、知识、情报的区别。
情报:情报是人们为一定目的搜集的有使用价值的新知识或新信息。
知识:《辞海》解释说:“知识是人类认识的成果或结晶,包括经验知识和理论知识,又说:知识借助于一定的语言形式,或物化为某种劳动产品的形式,可以交流和传递给下一代,成为人类共同的精神财富”。
文献:我国颁布的《中华人民共和国国家标准·文献著录总则》(GB3792·183)对文献的定义为:“文献是记录有知识的一切载体。”
信息、文献、知识和情报四者关系
信息是起源,是基础,它包含了知识和情报,是它们共同的本质联系的纽带。文献则是信息、知识、情报的存储载体和重要的传播工具,是重要的知识源、情报信息源,它是信息、知识、情报存储的重要方式。信息可以成为情报,但是一般要经过选择、综合、研究、分析等加工过程,也就是要经过去粗取精、去伪存真、由此及彼、由表及里的提炼过程;信息是知识的重要组成部分,但不是全部,只有提高、深化、系统的信息才能称作知识;信息、知识、情报的主要部分被包含在文献之中。
4.简述信息检索的方法、途径和程序。
检索方法可分为两大类:手工检索和计算机检索。
(1)手工检索
是指人们通过手工的方式来存储和检索信息。(多利用各种检索工具的印刷版如目录、文献等来实现)
Ⅰ常用法
顺查法:适用于全面掌握学科或技术发展的全过程。
逆查法:适用于了解某一学科最新动向。
抽查法:选择某学科领域发展较迅速的时间进行查找的方法。
Ⅱ追溯法
即利用原始文献所附的参考文献进行追溯查找的方法。
Ⅲ循环法(交替法):结合以上两种方法。
(2)计算机检索
是指人们利用数据库、计算机软件技术、计算机网络以及通信系统进行的信息存储和检索,其检索过程是在人机的协同作用下完成的。
Ⅰ定题服务
Ⅱ回溯检索服务
Ⅲ随机问答服务
Ⅳ联机定购服务
检索途径是根据文献信息的不同特征,从各个不同角度来查找文献信息的途径,可分为分类途径、主题途径、著者途径、关键词途径和序号途径等。
(1)分类途径检索
是一种按学科体系来查找信息的途径。目前我国通用的分类法主要有:《中国图书馆图书分类法》、《中国科学院图书馆图书分类法》和《中国人民大学图书馆图书分类法》。其中《中国图书馆图书分类法》是国家推荐统一使用的分类法。
(2)主题途径检索
是以代表信息主题内容的实质性词汇作为检索标识进行检索的一种途径。
(3)关键词途径检索
是以代表信息主题内容具有实质意义的或对揭示信息内容来说是重要的、关键的词汇作为检索标识进行检索的一种途径。
(4)责任者途径检索
是根据已知信息作者姓名或机构名称来查找信息的途径
(5)序号途径检索
是一种按序号来查找信息的途径。序号包括:报告号、专利号、标准号等。
检索程序
(1)分析研究课题、明确检索目的和要求;
(2)选择数据库(检索工具);
(3)选择检索途径和检索方法;
(4)确定检索词、实施查找;
(5)索取原始文献,进行反馈调整
第二章 信息检索语言
思考题
1.信息检索语言的基本概念?
检索语言,又称为标引语言、索引语言、文献检索语言、信息存储与检索语言等。它是用于描述信息系统中信息的内部特征和外部特征及表达信息用户需求提问的一种专门语言。
2.简述分类检索语言和主题检索语言?
分类语言建立在科学分类的基础上,运用概念划分与概括的方法.将大大小的概念进行层层划分,逐级划分就产生许多不同级别的类目。所有不同级别的类目,层层隶属,形成了一个严格有序、层次分明的知识门类等级制体系。每一类目分别以不同符号作标志,每个分类号都是表达特定知识概念的的语词,这种标志就是分类语言。分为等级体系型分类检索语言,分面组配型分类检索语言
主题语言是使用词语标识的一类信息检索语言,又称主题法。主题语言是一种描述语言,即用自然语言中的名词、名词性词组描述事物概念的中心语义。也就是说,它以语言文字为基础,以反映特定事物为中心,不论学科分类和科学技术的逻辑序列,直接借助于自然语言的形式,作为信息内容的标识和检索依据,是一种以主题字顺体系为基本结构的检索语言。它给人以直观的感觉。
主题语言的构成原理:
(1)主题语言利用自然语言中的名词术语,经过一定程度的规范化处理,作为表达文献和提问内容的主题标识,即主题词。
(2)主题语言利用主题词的字顺序列,按事物的名称排列与检索文献信息。
(3)主题语言利用各种参照系统等手段,显示主题标识之间的各种关系,并以此把主题词表中的众多主题词相互联系起来,构成的主题词体系。
主题语言的符号:
与分类语言有所不同,主题语言的显著特点是直接利用自然语言的词语作为主题标识,标引文献或检索信息时都必须使用主题词。
主题语言的语法:
先组式检索语言:直线序列标识,简单明了,适合手工操作的检索系统。如标题语言
后组式检索语言:性序列标识,多元揭示复合主题,适合计算机信息检索系统,如叙词语言
主题语言的种类
主题语言可以按照主题词性质的不同,分为标题语言、元词语言、叙词语言、关键词语言4种。
第三章 检索工具及检索系统
思考题
1.检索工具和检索系统分别是什么?检索工具和检索系统的类型有哪些?
检索工具(Retrieval Device)是指用于报道、存储和查找文献的工具。它具有存储(编制过程)和检索(查找过程)两大功能。
检索系统由一定检索设备和加工整理并存储在相应的数据库(文献集合)及其它必要的设备共同构成的,具有存储和检索文献的信息服务设施
检索工具和检索系统的类型
按信息处理手段划分
1.手工检索工具或系统:用手工方式查找和处理文献的工具和系统。如卡片目录
2.机械检索工具或系统:用简单的机械装置来处理和检索文献。如穿孔卡片
3.计算机检索系统:用计算机处理和查找信息的电子信息检索系统。通常包括计算机、数据库、检索终端等组成。
2.简述检索工具/系统的质量评价?
收录范围 :系统收录范围是否明确、全面(首要标准)。
报道量:指某一检索刊物每期或每年所报道的文摘或题录或全文的条数。
如果是计算机系统的话,就是单位时间内收录文献的条数。
摘录质量:是否能够准确摘录文献的内部特征和外部特征。如果在全文检索系统,就不存在这个问题。
报道速度:从一次文献发表到相应的二次文献之间文献滞留时间。在全文检索系统中,是指文献的第一次发表,到收录到全文检索系统中的间隔时间。
检索功能:包括正文编排是否科学、索引是否完备、版面设置是否合理。
第四章 信息检索方法途径和信息检索步骤
思考题
1.利用《中国林业文摘》,通过各种途径查找以下课题(选一种或两种途径均可),需要写清楚整个检索过程:
(1)查找有关“草坪栽培”的相关文献。
(2)查找有关“森林病虫害防治”的相关文献。
2.简述信息检索的方法、途径和步骤。
手工检索的方法
Ⅰ直接法:是指一般不使用检索工具(系统)检索信息的方法,它大致可分为浏览法和追溯法。
浏览法
是指直接通过浏览、查阅文献原文而获取所需文献信息的方法。此法比较适合查找新近发表还没被各检索工具收录的文献。
优点:能最快地获取信息;能直接阅读原文内容;基本能了解本学科发展的动态和水平。
缺点:需事先知道本学科的核心系的载体;检索的范畴不够宽、漏检率大。
追溯法
又称回溯法、扩展法、追踪法。它是指一种跟踪查找的方法。根据文献著者在文献末尾所附的参考文献、有关注释、辅助索引、附录等的指引追踪查找文献。
分为传统追溯法和引文追溯法。
优点:不需要利用检索工具,查找方法简单。
缺点:检索效率不高,漏检率和误检率较大。
Ⅱ 常用法(或称常规法、工具法):它是利用检索工具查找信息的方法,以主题、分类、著者等为检索点,通过检索工具获得所需文献信息的一种方法,是一种常用的科学检索方式。
由于检索要求不同,常用法可分为顺查法、逆查法、抽查法和分段法
顺查法
它是根据检索课题的时间范围、按由远及近,从过去到现在,从旧到新的顺序逐年逐卷地查找文献信息的一种方法。
优点:查全率、查准率较高、漏查率较小。
缺点:费时费力、检索工作量大。
逆查法(倒查法)
它是指与顺查法相反,按照检索课题的时间范围,利用一定的检索工具由近到远、由现在到过去、由近期向早期回溯查找文献信息的一种方法。
优点:省时省力,灵活性大,效率高。
缺点:容易产生漏查的现象,查全率查准率低。
抽查法
它是指针对某学科的发展特点和发展阶段,抓住该学科发展较快、文献信息发表较多的年代,抽出这段时间进行检索的一种方法。
优点:能获得一批具有代表性、反映学科发展水平的文献,检索效果和效率较高。
难点:必须了解和熟悉学科发展的特点及历史背景,才可以达到满意的检索效果。
分段法
又称循环法或综合法,是交替使用“追溯法”和“常规法”来进行检索的综合方法。即首先利用检索工具查出一批信息,再利用这些信息所附的参考文献追溯查找相关信息。如此交替、循环使用常规法和追溯法,不断扩检,直到满足检索要求为止。
优点:当检索工具缺期,缺卷时,也能连续获得所需年限以内的情报资料,漏检率低,检索效率高。
计算机检索方法
Ⅰ定题服务(SDI,Selective Dissemination of Information):针对用户的需求,定期地提供各种新信息,使用户能及时地掌握与自己研究工作有关地最新资料。
Ⅱ 回溯检索服务(Retrospective Searching):根据用户的需求,对现有的文献进行彻底详尽的追溯,把与课题有关的一切文献全部查出来,提供给用户。
Ⅲ 联机订购服务(On-line Ordering):通过联机检索得到二次文献,如果用户需要相对应的 一次文献,可通过终端联机定购原始文献的复印件或原文。
Ⅳ 随机问答服务:由用户直接利用终端进行检索。检索系统即时提供所需文献的信息,一般由数值型数据库、事实型数据库提供各种科学数据库和事实数据。
检索途径的分类
按照检索途径与信息内容相关程度划分
1.反应信息内容特征的途径
(1)分类途径:是一种按学科分类体系来查找信息的途径,以分类检索语言为依托。使用“分类目录”、“分类索引”等进行查找。
当研究课题较大,需要全面了解某一学科及其相关知识的时候,或者难于判定研究课题所属主题范围的时候,常通过分类途径查找信息。
(2)主题途径:是以代表信息主题内容的实质性的词汇作为检索标识进行检索的一种途径,以主题检索语言为依托,使用“主题索引”、“关键词索引”、“叙词索引”等进行查找。
这种途径有利于将分散的各学科的有关信息集中于同一主题词之下,表达概念准确灵活,便于特性检索。
2.反应信息外部特征的途径
(1)著者途径:是根据已知信息作者姓名或机构名称来查找信息的途径。
利用著者途径查找信息的优点是可以满足对个人及团体著者的学术水平进行评价时的信息查找。
缺点是不能满足全面检索某一课题文献的需要。
(2)题名途径:包括书名、刊名和篇名等途径。使用“书名索引”、“刊名索引”、“会议资料索引”。
(3)序号途径:序号包括报告号、标准号、专利号、登记号等。使用“报告号索引”、“标准号索引”、“专利号索引”、“登记号索引”等进行查找;
3.其他途径
分子式途径:是以化学物质的分子式作为检索标识等查找文献的途径。通过“分子式索引”进行查找,主要为美国《化学文摘》所用。
信息检索的步骤
(1)分析研究(检索)课题,明确检索要求。
分析课题,是实施检索中最重要的一步,也是检索效率高低或成败的关键。
在课题分析中,要考虑以下几个问题:
a.分析主题内容
b.分析问题类型;
c.分析查找年代;
d.课题需要的主语种;
e.了解课题对查新、查准、查全诸方面有无具体要求。
(2)选择检索工具或检索系统
检索工具或检索系统的选择是否恰当,将直接影响检索质量。
(3)确定检索方法
选择检索方法的目的在于寻求一种花时少、检索效果好的有效方法。检索方法主要根据检索条件、检索要求和学科特点而定。
(4)确定检索途径和检索策略
根据已知条件,选取最易查获所需信息的途径。
检索策略是检索前制定的概念组配和执行顺序的方案。
(5)实施检索并调整检索策略
利用描述信息外表特征的途径进行检索,简便快捷。而利用分类途径或主题途径检索时,可能会出现检索提问标识和信息存储标识不一致的情况,所以应反复修改检索提问标识,直到恰当为止。
(6)记录和阅读文献线索
a.记录检索结果
b.阅读文献线索过程中应注意的问题
正确识别文献类型:国内检索工具的著录款目,一般均在文献篇名之后用一个汉字(方括号内)注明原始文献的类型。
(7)索取原始文献
当文献类型和出版物全称明确以后,就可以索取原始文献了。
3.简述信息检索的效果评价。熟悉查全率、查准率、漏检率、误检率等评价指标的计算。
常用的信息检索效果的评价指标有:收录范围、查全率、查准率、漏检率、误检率、响应时间、用户负担和输出形式等。其中主要指标是查全率和查准率、漏检率、误检率。
查全率:系统检索出的相关文献量占系统文献库中的相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。
查准率:系统检索出的相关文献量占检索出的文献总量的比率,是衡量信息检索系统精确度的尺度。
查准率和查全率的计算
与课题相关文献数 非相关的文献数 总计
被检索出的文献A B A+B
没被检索出的文献C D C+D
总计A+C B+D A+B+C+D
计算:
查全率R: =A/(A+C)*100% 查准率P:=A/(A+B)*100%
一般来说,查全率与查准率之间存在互逆关系,即当某一系统的查全率与查准率处于最佳比例关系时,继续提高查全率,检出的相关文献量增加,查全率提高,却导致不相关文献检出反而降低查准率,反之亦然。
漏检率:它是指漏检相关信息量与在检索系统中相关信息总量的比率,是衡量信息检索系统漏检信息的尺度。
误检率:它是指误检(检出不相关)信息总量的比率,是衡量信息检索系统误检信息程度的尺度。
漏检率和误检率的计算
与课题相关文献数 非相关的文献数 总计
被检索出的文献 A B A+B
没被检索出的文献 C D C+D
总计 A+C B+D A+B+C+D
计算:
漏检率O: =C/(A+C)*100% 误检率E: =B/(A+B)*100%
第五章 事实与数据检索
思考题
1简述参考工具书的结构?
参考工具书的定义:事实与数据检索使用的主要工具是参考工具书,参考工具书是根据一定的社会需要,以特定的编排形式和检索方法,为人们迅速提供某方面的基本知识或文献资料线索,专供查询的特定类型的图书。
参考工具书的结构
一部结构完备的参考工具书,通常由序、跋、凡例说明、目次、正文内容、附录、补遗等几部分组成。
序、跋一般是对编者阅历的介绍,常识的推崇,对内容的评论,编撰的说明,版本演变的交代。
凡例说明说明编书的目的、意图、适用对象、取材多少及起止年限、编排体列及使用方法等。
目次全书主要标题的顺序排列,并指示所在的页次
正文内容工具书的主体。正文内容的思想性、科学性、资料性、知识性、易检性是衡量一本工具书质量高低的主要标准,也是选择使用工具书的主要依据。
辅助索引弥补正文内容编排的缺陷,扩大多种检索途径,方便使用。
附录包括是有关的图表、统计方法等。作用是扩大工具书的使用范围,提高科学价值。
补遗对正文内容的补充,单独列出。
2简述中文工具书的主要排检法?
中文工具书的主要排检法
中文工具书的排检方法相当多,目前比较常用的排检方法主要有字顺法、主题法、分类法、时序法和地序法。
1. 字顺法
字顺法也称字序法,是按照一定顺序排检单字或复词的一种方法,是工具书的一种重要排检方法。一般的字典、词典、索引和百科全书都采用这种方法。
字顺排检法的形式主要有形序法和音序法、号码法三种。
(1)形序法
根据汉字的形体结构,按其共同特点加以排列,以便人们查检其读音和字义。主要有部首法、笔画、笔顺法。
部首法:根据汉字的字形结构,按部首偏旁的相同部分归类的方法。
笔画法:笔画检字法是按汉字笔画数目多少为排列次序的检字法。
笔顺法:又称笔形法,是按起笔笔形顺序确定汉字排列先后的检字法,起源于清代宫廷文书档案整理和保管的方法。起笔顺序有按点(、)、横(—)、竖(|)、撇、折;或横、竖、撇、点、折等为序,现在广泛采用后者。
笔画法与笔顺法可结合使用,成为笔画笔顺法,如崎、崖、圈。
(2)号码法
该法是形序法的一种变型。它把汉字的各种笔形用号码表示,再按各个汉字代号的大小顺序编排。主要有四角号码法、中国庋撷字、起笔笔形代码法等。
四角号码法:它是根据汉字方块形状的特点,以汉字字角的各种笔型配一个阿拉伯数字代号。
四角号码法一般的方式是:先根据单字的四角号码排列其先后顺序,四角号码相同的单字,再按附角号码依次排列。
四角号码法把所有汉字四个角上出现的笔形概括为10种类型,每一种类型用个号码代替。
歌诀:横一垂二三点捺叉四插五方框六
七角八是小点下有横变零头
(3)音序法
这是一种按字音排列汉字的方法。主要有韵部顺序法(声韵法)、注音字母顺序法(注音法)和汉语拼音字母顺序法(拼音法)。
韵部顺序法(声韵法):它是古代按字音排列汉字的一种方法。
现代为阴平、阳平、上、去四声;古代是平上去入四声,它是先将汉字按声调分为上平声、下平声、上声、去声、入声五类,在每一声类下,再将韵母相同的汉字归在一起,组成一韵部,并取其一字作为这一韵部的代表字,称为“韵目”,古代许多韵书都用此法。韵部的划分,各个历史时期有所不同。
注音字母顺序法:以注音字母为标记,拼写汉字的拼音,并按注音字母及其拼读音节的顺序编排汉字的方法。50年代后,汉语拼音方案公布,此法即被取代。
汉语拼音字母顺序法:按1958年公布《汉语拼音方案》字母表的顺序排列汉字的方法。在26个字母中,除去I、U、V3个字母外,共23个部。如《现代汉语词典》。
2.分类法
这是将文献按学科或按事物性质系统排列的一种排检方法。
(1)事物性质排检法,如年鉴、手册。
(2)学科体系排检法,如百科全书。
我国现代分类法
目前我国图书文献信息机构使用较普遍的图书分类法有如下三种:
(1)《中国图书馆分类法》
简称《中图法》,是一部大型的综合性图书分类法。于1975年正式出版,1980年出版第二版,1990年出版第三版,1999年出版第四版,2010年出版第五版。
(2)《中国科学院图书馆图书分类法》
简称《科图法》,由中国科学院图书馆编辑,1958年正式出版。使用单位除中国科学院系统的图书馆外,还有部分其他系统的图书馆。
《科图法》采用纯数字作标记符号,其分类体系是5大部类25个基本大类。
(3)《中国人民大学图书馆图书分类法》
简称《法》,由中国人民大学图书馆编辑,1954年正式出版,至今已修改出版了5版。
《法》将图书文献分为四大部类,十七个大类,采用纯数字作标记符号,号码采用严格的层累编号制。
3.主题法
它是以表达文献内容的主题作标识,以字顺为主要检索途径,并且通过参照系统等方法,显示它们之间联系的标引和检索方法。简单说,它是一种以规范化的自然语言作为文献的主题标识和查找文献依据的方法。表达文献主题的语词称为“主题词”,通常分为标题词、元词、关键词、叙词。
(1)标题词法
标题词又称标题,来自通用语言中比较定型的事物名称,经过规范化处理,用来表达文献主题概念的词、词组或词语。
如:“图书”、“信息资源”、“信息组织”、“信息存储与检索”
(2)元词法
元词又称单元词,指那些从文献中抽取出来,能表达文献主题的最小和最基本概念的词汇单位,即字面上不能再拆分的词。元词法是以元词作为文献主题标识的主题词法,它是在标题词法的基础上发展起来的后组式标引方法。
如:“物理”、“贸易”,而“知识组织”、“主题标引”等不是元词。
(3)关键词法
关键词是指从文献(主要是篇名)中抽出来的、能确切地描述和揭示文献主题内容的关键性语词。
如:《计算机在人口普查中的应用》
关键词法是将关键词作为文献主题标识的主题词法,属非规范化主题词法,一般没有固定的主题词表。
(4)叙词法
叙词是选自自然语言,经过规范化处理的单元词或词组。
叙词法是以叙词作为文献主题标识的主题词法。
如《汉语主题词表》
《中国分类主题词表》
4.时序法
这种是按事物发生发展的时间顺序或人物的生卒年月、生平经历的先后顺序编排的方法。如出版书目、个人著述目录、标准文献目录、会议录文件、学科发展史料和人物传记、年谱、年表、历表等都采用此法。
5.地序法
这是按事物的行政区划或自然地理性质排检知识材料的一种方法。多用于地理学、生物科学、农业及一些行政管理学科。用这种方法编排的工具书主要有地图集、地方志。
3常用参考工具书简介。
参考工具书的种类繁多,按其文种来说,有中文工具书和外文工具书;按其编撰时代来说,有古代工具书和现代工具书;按其刊印形式来说,有期刊、书籍和单幅图片;按其功能特点来说,有字典、词典、百科全书、年鉴、手册、名录、图录、表谱之分;本课按最后这种分类方法,并有侧重点对参考工具书作简单介绍。
分类:按文种,可分为中文工具书和外文工具书。
按学科内容,可分为社会科学工具书和自然科学工具书
按编撰时代来说,有古代工具书和现代工具书之分。
按刊印形式,有书籍、期刊和单幅图片之分。
按其功用特点,分为字典、词典、百科全书、年鉴、手册、名录、图录、表谱等。
参考工具书指南:工具书指南是向人们介绍那些比较重要的工具书,因此,它通常还被人们称为“工具书的工具书”。
字典、词典定义
字典是解释字的形体、读音、意义和用法的工具书;词典(辞典)是解释词的概念、意义及其用法的工具书。
类型
按其收录的语种分:可为为单语词典、双语对译和多语对照词典。
按其收录的内容及其用途:可分为语言词典、知识词典、综合性词典和专门性词典。
年鉴(Year Book 或Annual)是汇集一年内的重要时事文献、学科时事与各项统计资料,并按年度出版的连续性出版物。
一般可分为综合性和专科性两类。综合性年鉴主要是综合评述,报道内容广泛,反映政治、经济、文化、教育等各方面的进展情况;专科性年鉴只报道某一特定的专业领域或某一行业的情况和统计数字。
手册特点
小型、专题明确具体,取材新颖,论述简要,类型分明,注意实际演算或操作方法。常以公式、数据、规格、条例、图表作为表述方式,使用便查。
手册类型
根据其收选内容的不同,可分为综合性和专科性2种类型。
(1)综合性手册
(2)专科性手册
百科全书定义
百科全书(Encyclopaedia)一词出于古希腊文enkyklios(各方面的)和paideia(教育)合为“全面教育”“百科知识”的意思。它是知识的系统总结,是百科知识的总汇。
其基本特点是知识门类齐全,内容包罗万象,不但可供读者查检必要的知识和事实资料,释疑解难,而且还能扩大读者知识视野和系统求知。
百科全书依其收录的内容范围,可分为综合性百科全书和专科性百科全书。
名录
名录是涉及范围很广的一种工具书,包括人名录、地名录、机构名录等。人们在从事科学研究、外事活动以及读书看报过程中,经常会遇到有关国内外某机构组织、某人物生平、某报刊资料的简介和国内收藏等情况。
名录类型
(1)人名录
(2)机构名录
图录
图录是汇集某一学科某一方面的事物,用图象形式绘录或摄制下来,加以分类编排的一种直观性的特种工具书.图录包括地图集和图谱。
(1)地图集
地图是运用制图法则和符号、图形、文字等,在平面上表示地表的自然状况和社会、经济等现象的空间分布及相互关系的文献。地图集则是将多幅地图按一定的主题和顺序汇集而成的图册。
(2)图谱
图谱是指一系列有内在联系的图象资料,这些图象有一定的分工和客观的次序。图谱又称图鉴,是以图为主,文字为辅,用以对照实物,辩明种类。科技图谱一般都具有内容的科学性,文字的通俗性,图象的艺术性,表达的准确性,能形象地揭示复杂的自然科学现象、原理、技术等,为科学技术研究提供丰富的直观材料。
表谱
表谱,包括年表、历表及其他历史表谱。
年表、历表是查考历史年、月、日的工具书。其中:年表是查考历史年代和检查历史大事的工具书;历表是查考和换算不同历法年、月、日的工具书。
第六章图书和期刊信息的检索
实践:
请在读秀学术搜索查找书名为《三国演义》的图书,共查到多少本图书?请打开一本阅读。
第七章特种文献检索
1、什么是特种文献?它都包括什么类型?
特种文献:人们通常把书刊之外的出版物称作特种文献。特种文献包括:专利文献、标准文献、会议文献、科技报告、学位论文等。
2、什么是专利?专利的三性是什么?专利的种类有哪些?
英文:Patent
狭义:指国家专利主管机关授予申请人在一定时间内享有的不准他人任意制造、使用或销售其专利产品或者使用其专利方法的专有排他权。
广义:专利权——法律角度
专利技术—技术角度
专利文献—文献角度
种类:发明专利、实用新型专利、外观设计专利
特点:独占性、地域性、时间性
三性:新颖性(Novelty)
创造性(Inventiveness)
实用性(Practical Applicability)
3、什么是标准文献?标准文献有什么特点?
标准文献:一般是由技术标准、管理标准及其他具有标准性质的类似文件所组成的特种科技文献体系。
标准文献的特点
标准文献它数量庞大,发展迅速与其他文献相比有以下几个特点:
强制性(指令性、指导性兼有)
自成体系(自成体系,完成)
重复交叉(种类繁多,重复交叉)
新陈代谢(更新迅速,修订频繁)
4、什么是学位论文?
学位论文(Thesis或Dissertation)是大学生或研究生为取得学位资格而提交的,介绍其发现与某种结论的调查或研究的学术论文。各级学位一般由高等院校或科研院所授予。
现代大多数国家学位有学士、硕士和博士三个等级,学位论文是学位授予的主要依据文件。学位论文包括学士、硕士和博士学位论文,学位论文是反映学术水平的重要文献资料,可分为技术应用性研究论文和理论探讨性研究论文两类。
学位论文的特点
观点新颖
论据充分
水平较高
学位论文的目的只是供审查答辩之用,不是为了出版销售。一般只打印若干份,在市场上无法获得。学位论文是非卖品也不公开发行,通常只在学位授予单位的图书馆和按国家规定接受呈缴本的图书馆保存有副本,故学位论文的收集与利用不如其它类型的文献方便。
5、什么是会议文献?会议文献有什么特点?
会议文献(conference document):是指在各种会议上宣读的论文、产生的记录及发言、论述、总结等形成的文献。
按会议文献出版的时间分
会前文献
会间文献
会后文献
按会议规模
国际性会议文献
地区性会议文献
国家性会议文献
基层会议文献
会议文献的特点
(1)内容新颖,水平较高。科技学术文献的内容新颖丰富,学术水平高,信息量大,可靠性高,观点可能不成熟,是了解某学科水平动态的重要信息源。
(2)信息及时,针对性强。传递信息比较及时,出版发行方式较多速度快,专业性强。
(3)形式多样,检索困难。会议类型较多,文献收藏分散,难以检索。其重要性和利用率仅次于科技期刊。
6、科技报告的特点是什么?美国四大科技报告的简介?GRA&I的检索方法是什么?
科技报告是描述一项科学技术研究的结果或进展或一项技术研制试验和评价的结果;或是论述某项科学技术问题的现状和发展的文件,它是一种重要的特种文献信息源。科技报告报道研究工作和开发、调查工作成果或进展情况的一种文献类别,一般都编号码(识别报告本身或发行机构)。
科技报告的特点
•专一的告知性
•明确的目的性
•严格的保密性
•快速的时效性
•广泛的实用性
美国四大报告简介
(1) PB报告(行政系统)
1946年,美国为了整理在第二次世界大战中从战败国获得的内部科技资料,成立了美国商务部出版局负责整理、公布这批资料,因每件资料都冠以美国商务出版局的英文名称
Publication Board的自首“PB”作为标识,因而称为“PB报告”。
•PB报告的编号
•PB报告的编号原来采用PB代码加上流水号,1980年开始使用新的编号系统,即PB+年代+顺序号。
PB报告报告内容:开始是收录战败国的科技资料 后来是收录国家解密的报告或公开的报告等 现在侧重于民用工程方面,如:土木建筑、城市规划、生物医学等。
(2)AD报告(军事系统)
AD报告产生于1951年,由原美事技术情报局(简称ASTIA)收集、整理、出版的科技报告。该报告因由ASTIA统一编号,称ASTIA Document,简称AD报告。
AD报告文献来源:与国防有关的各个领域,主要是源自海陆空三军下属的研究所、大学等报告。现在AD报告的文献来源非常广泛,报告范围不仅包括了与国防有关的各个领域,也涉及许多民用技术领域。
就其数量和质量而言,AD报告比其它三种报告更重要。
AD报告的密级有4种:机密(Secret)、秘密(Confidential)、内部发行(Restricted Limited)、非密公开发行(Unclassified〕。
(3)NASA报告(宇航系统)
NASA报告是美国国家航空和航天局(National Aeronautics and space administration) 简称NASA出版的科技报告,现也简称N报告。
NASA报告主要是航空航天领域,年报告量约1万件左右。
NASA报告的报告号采用“NASA+报告出版类型+顺序号”的表示方法。
(4)DE报告(能源系统)
DE报告原称DOE报告,该报告因出版单位多次变化,先后由美国原子能委员会(department of energy); (AEC)、能源研究与发展署(ERDA)和美国能源部(DOE)出版,报告名称也从AEC、ERDA、DOE到DE多次变化。
1981年开始,能源部发行报告都采用“DE+年代+顺序号”的形式。如“DE95009428”
内容:主要是原子能方面
美国《报告通报及索引》(GRA&I)是由美国商务部技术情报所主编的美国科技报告出版物的检索工具。
1946年创刊,是美国商务部国家技术情报服务局NTIS编辑出版,半月刊。报道方式:摘录。出版形式:印刷性缩微性、网络版、磁带版。
•编排:1987年以后按NTIS的主题法:22个大类,178个小类。
•GRA&I报道全部的PB报告、公开发行和解密的AD报告、部分NASA报告和DE报告,还有一部分美国专利申请说明书的摘要。其每期报道2500多件报告,每年24期。
GRA&I的检索途径:
分类途径
主题途径
著者途径
追溯检索
实践:
1请在中国知识产权局www.sipo.gov.cn或中国专利信息网查找申请人为“西南林业大学”(西南林学院)的专利,你在此系统中能查到多少篇与西南林大学相关的专利,请摘录一篇。
2请在CNKI中检索有关作者单位是西南林业大学(西南林学院)的学位论文,请摘录一篇。
第八章电子检索工具概论
思考题
1.数据库的定义及构成
数据库的定义
国际标准ISO/DIS5127规定,数据库的定义为:“至少由一种文档组成,能满足特定目的或特定功能数据处理系统需要的数据集合。”数据库的本质是可以提供共享的有一定组织方式的相关数据。
数据库的构成
数据库是以文档的形式组织起来的,文档的基本组成单位是记录,而记录又是以若干字段组织而成,因此,数据库主要由文档、记录、字段三个层次构成。
文档(File):若干个逻辑记录构成的信息集合称为文档。它是书目数据库和文献检索系统中数据组织的基本形式。
记录(record):是作为一个单位来处理的有关数据的集合,是对某一实体的属性进行描述的结果,是文档的基本单元,在全文数据库中,一个记录就是一则完整的信息;在题录数据库中,一个记录就是一条文摘或题录。
字段(Field):是记录的基本单元,用来描述实体的某一属性。在书目数据库的记录中,字段的划分与文献著录事项的划分相一致,一个字段与一个著录项目相对应,所以,一个记录中通常含有文献号字段、题名字段、作者字段、出版字段、语种字段、主题词字段、分类号字段等各种必要的字段。每个字段的具体内容称为字段值或属性值。
子字段:是字段的下一级数据单位。在有些字段中,它们的值往往由多个子项构成。例如:作者字段可能含有多个作者,出版字段含有出版者,出版地和出版年等等。
2.简述检索技术。常用的布尔逻辑算符有哪些?
布尔逻辑检索技术
布尔检索利用布尔逻辑算符将用户的每一步简单概念组配成一个具有复杂概念的检索提问式,用以表达用户的检索需求,计算机将根据提问式与系统中的记录进行检索词或代码的逻辑组配,当两者相符时则命中,并自动输出该文献记录。是目前使用最广的检索方式。
布尔逻辑算符
常用的布尔逻辑算符有3种,分别是逻辑或OR、逻辑与AND、逻辑非NOT
(1)逻辑或“OR”
是用来组配具有同义或同族概念的词,如同义词、相关词等,其含义是,检出的记录中,至少含有两个检索词中的一个。
也可用“+”代替,检索词A和检索词B若用“OR”组配,则提问式可写为
A OR B 或者A+B
(2)逻辑与“AND”
用来检索不同检索概念。其含义是检出的记录必须同时含有所有的检索词。
也可用“*”代替,检索词A和检索词B若用“AND”组配,则提问式可写为
A AND B 或者A*B
对于提问式A AND B,假设检索词A的所有命中文献有M篇,检索词B的所有命中文献有N篇,提问式的所有命中文献有Q篇,则:
当A与B有一定相关性时,M>Q>0或N>Q>0;
当A与B密切相关时,Q=min(M,N);
当A与B不相关时,Q=0。
使用逻辑与,可以缩小检索范围,提高检索结果的查准率。
(3)逻辑非“NOT”
该算符的应用可以用以排除含有某些词的记录,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。
也可用“-”代替,检索词A和检索词B若用“NOT”组配,则提问式可写为
A NOT B 或者A-B
对于提问式A NOT B,假设检索词A的所有命中文献有M篇,检索词B的所有命中文献有N篇,提问式的所有命中文献有Q篇,则:
当A与B有一定相关性时,Q 当M 使用逻辑非,用于排除不希望出现的检索词,提高检索结果的准确性。 (4)除以上三种布尔算符外,还有一种异或逻辑算符XOR。 检索词A和检索词B若用异或XOR组配,可写为: 检索结果为:含有检索词A的文献命中,含有检索词B的文献命中,但同时含有A和B的文献不命中。 3.简述检索策略。 广义上的检索策略:是在充分掌握用户需求的基础上对整个检索过程的通盘考虑与科学安排。 狭义上的检索策略:是检索标识的确定与检索表达式的拟定。 检索策略的制定 (1)明确用户的信息需求:要求明确用户检索的学科专业范围、主题内容与检索目标。 (2)选择检索方式和检索方法。 (3)选择检索系统或检索工具:一般选择权威的信息密度高的检索系统或工具,并据此确定合适的检索途径。 (4)确定检索项目:对用户提问进行标引形成与所选择检索系统使用一致的检索项目。 (5)拟定检索表达:根据检索提问的概念逻辑关系,把各组面用相应的逻辑符号联接起来,并确定各检索词的权值,以及输出阈值。 (6)制定具体的检索程序。 (7)判断检索结果的相关性,必要时进行反馈检索,获取原始信息单元。 以上步骤中,二、三步是支持性的,四、五步是关键与核心,狭义上理解的检索策略就是指相应的检索表达式的制定。 4.要检索“中东粮食生产问题的文献”,请用布尔检索算符给出检索表达式。 5.要检索“赖茂生所著的计算机情报检索方面的文献”,请利用各种可能的算符给出检索式。 第九章因特息检索 1.简述搜索引擎。 搜索引擎概述 简单地说,“搜索引擎”是INTERNET上查找准确信息的工具。引擎是英文“Engine”的音译词,代表发动机。搜索引擎是“Search Engine”意为查找信息的发动机。它是一种用于帮助INTERNET用户查询信息的搜索工具,它以一定的策略在INTERNET中搜集、发现信息。对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。 搜索引擎的构成 搜索引擎通常由搜索器(又称为网络蜘蛛——Web Spider,爬行者—— Crawlers,机器人—— Robots等)和检索程序两部分组成。网络蜘蛛在网络间则负责对搜索到的信息进行整理、分类和索引,并对检索者提出的各种检索要求作出响应。搜索引擎的运行速度一般都非常快。每次检索只要几秒钟即可完成。 搜索引擎基本类型 目前,Internet中的搜索引擎主要有三种基本类型,1)以分类目录为主的搜索引擎;2)以全文搜索为主的搜索引擎;3)建立在搜索引擎之上的多元搜索引擎(Meta-Search Engine)。其中,前两类搜索引擎的功能是相互借鉴和互为补充的,两者的界限也渐趋模糊。, 1)以分类目录为主的搜索引擎 这类搜索引擎又称为目录服务,著名的Yahoo是其代表。 检索系统将搜集到的Internet中的所有资源按其主题分为若干大类。每个大类下面又分设若干二级类目、三级类目等。每个类目下面列出属于这一类目的网站名称的网址链接。 2)以全文检索为主的搜索引擎 这类搜索引擎通常称为索引服务,它们与分类目录为主的搜索引擎中的网站查询功能相似,著名的ALTA VISTA就是这方面的代表。 以全文检索为主的搜索引擎,它们的搜索对象是Internet所有网站中每个网页的全部内容。检索得到的结果,通常是一个个网页的地址和一段文字。 3)多元搜索引擎 Internet 庞大的信息,使得的搜索引擎都无法单独覆盖,而建立在搜索引擎之上的搜索引擎,通常称之为多元搜索引擎。 原理:当向一个多元搜索引擎发出检索要求之后,该引擎会将检索要求迅速发送给其他的搜索引擎,并将它们反馈的结果集中显示。 多元搜索引擎具有同时查询多个数据库的优势,至于其本身是否拥有数据库则无关紧要。 按其工作方式,又可具体分为串行处理和并行处理两种; 串行处理是将检索要求先发送给某一个搜索引擎,然后将其检索结果经处理后,传递给下一个搜索引擎,依次进行下去,直至最终将结果反馈给系统。 并行处理则是将检索要求同时发送给所有要调用的搜索引擎。 4)All-in-One集成搜索 All-in-One是指只要通过一个网站,即可选择多个搜索引擎依次进行搜索。 在很多场合,多元搜索引擎被视为All-in-One集成搜索的一部分。 All-in-One搜索公司的“ All-in-One Search Page”可以看作是All-in-One集成或搜索的代表。 5)特殊用途的搜索引擎 科学信息的搜索引擎Scirus; 全球华人寻人搜索引擎——Look 4 U; 软件搜索引擎——Soft Seek,Download Power Search; 图形、图像搜索引擎——Image Surfer; 支持自然语言的搜索引擎——Ask Jeeves; 搜索引擎的一般检索步骤 第一步,选择合适的搜索引擎。 一般而言,选择搜索引擎应从以下几个方面考虑: (1)收录范围。 (2)数据库容量。 (3)检索界面。 (4)更新周期。 (5)准确性。 (6)全面性。 第二步,选择合适的检索入口实施检索。 搜索引擎的检索途径通常由分类和关键词两种。一般形式是,以分类目录为主的搜索引擎几乎都有一个关键词检索框,而以全文检索为主的搜索引擎,除极个别外,也都有一个分类目录索引。 (1)以分类为检索入口的搜索引擎的使用。这种方式主要用于检索者使用搜索引擎只是想大致了解某个方面的信息。 (2)以关键词为检索入口的搜索引擎的使用。 关键词索引是搜索引擎的基本组成部分。一个搜索引擎可以没有分类目录,但却很少没有关键词检索,只不过有的搜索引擎关键词检索的对象是网页,有的则是网站而已。 过程:进入搜索引擎可见一个关键词检索框在检索框中输入检索表达式按检索键 2.简述Google的使用方法。 Google简介 Google是由Larry page与Sergey Brin于1998年9月在美国硅谷设计的搜索引擎。目前,已有Yahoo,AOL,网景和中国的网易等知名网站在内的全球150多家公司采用了Google的搜索引擎技术。Google中文搜索引擎技术在某种程度上可以说是目前收录范围最广、功能最强、精确度最高的搜索引擎之一。 功能和特点 (1)采用了先进的网页级别技术。 (2)在同一界面下,可以定制语言和到何种网站中进行搜索。 (3)搜索结果通常会比其他搜索引擎来得更准确。 (4)Google是目前收集亚洲网站最多的搜索引擎之一,对中文的支持性强。 (5)Google的“手气不错”、“网页快照”、“类似结果”等功能。 手气不错 按下“手气不错™”按钮将自动进入Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。 例如,要查找Stanford 大学的主页,只需在搜索字段中输入“Stanford”,然后单击“手气不错”按钮。Google 将直接带您进入Stanford 大学的官方主页www.stanford.edu。网页快照(Cached) 随着Google在网络上“爬行”,它将网页补充到它的搜索引擎中,它要快速地处理每个网页并储存备份。Google利用网页快照的主要目的,是为了判断一个网页是否与你的检索式相匹配,并定期地对其刷新。 类似结果(Similar Pages) 有的时候,你可能十分喜欢所找到的某个网页,并希望查看与其相类似的网页。当你想查找更多的相同类型的资源或者网站时,请点击Similar Pages(类似结果)链接。 翻译该网页链接(Translate This Page) 如果某个网页使用的不是你所熟悉的语言,则可使用Google的翻译网页的功能。即,可以利用Google翻译这个网页。 文件类型的转换 有的时候,Google可查找到不是网页的文件。例如,检出的可能是使用Microsoft Word格式或PDF格式的文件。Google能够将这种文件转换成HTML(超文本标识语言)或文本格式。 文件类型的转换可用于当你使用原文本格式不能观看网页的时候,比如,当你的计算机上没有安装合适的软件或当你想马上观看某个文件的时候。在该文件有被转换的格式的版本时,Google会显示View as HTML或View as Text链接,点击其中的一个链接,则可观看转换了格式的网页。 查找特定类型文件 例如,如果您只想查找 PDF或Flash 文件,而不要一般网页,只需搜索“关键词filetype:pdf” 或“关键词filetype:swf”就可以了。 例如:检索“信息检索filetype:pdf” 检索方式 在地址栏里输入www.google.com,打开Google首页,它会根据所使用的浏览器自动出现简体中文界面,分为基本查询和高级搜索两种。 (1)基本查询。Google简洁、鲜明的界面中间便是要求输入关键字的对话框,其右边是两个小键:“高级搜索”和“使用偏好”,其中“使用偏好”可以选择目前26种不同的语言,第四行是“Google搜索”和“手气不错”,再下面为Google大全、搜索建议等。 有时,可以在检索式中加入对google有特殊涵义的运算符,将运算符与检索词一起使用,可以改进google的检索方式。 引号:“” 使用双引号界定多个检索词,可以查到各个单词按相同词序在一起出现的网页。 如:“信息检索” 通配符:* 还有的情况,是你只知道想查找的某个字句的一个部分。可能你只知道一首歌曲的几句歌词或者一部图书书名中的一个部分,对于这种情况,Google提供了一种通配符运算符*(星号),表示匹配用它代表的任何词。把*作为你不知道的词的替代符号。 运算符:OR 使用OR运算符则表示告诉Google,查找包含其中任何一个词的网页。 注意:必须使用”OR“,而不是“or”,是因为Google把前者看成是运算符,而将后者看成是普通的检索词,虽然Google对于检索词不区分大小写,但是,运算符却使用大写来表示。 例如:土豆OR白菜OR萝卜 运算符:AND 使用AND 运算符表示告诉Google,查找包含其中所有词的网页。 也可以在两个词之间以空格隔开。 如:土豆AND白菜AND萝卜 土豆 白菜 萝卜 运算符:“-” 将一个“-”号放在一个词的前面(不加空格),表示让Google找出不含该检索词的网页。 例如“武汉 –广州” 是要检出只含有武汉,而不含有广州的网页。 (2)高级搜索(Advanced Search) 当我们利用简单检索已山穷水尽时,可以使用高级检索表格来规定要准确查找的内容.点击检索框右面或上方的Advanced Search(高级检索)的链接(或者输入网址:http://www.google.com/advanced_search) 可进入到高级检索页面。 (3)查询结果。 提交查询后,系统根据检索词和查询选项返回查询结果。Google可以自定义每页显示的结果数量,选择10,20、30、50或100,Google默认值是10。Google会根据其网页级别,对结果网页排列出优先次序。 Google的不足之处 ▪其数据的更新速度无法进一步提高。 ▪无法搜索动态生成的网页。