
姓名_________ 学号____________
一、判断题(每题1分,共20分)
1.NLP的全称是自然语言理解。(×)
2.语料库设计必须是动态的。(×)
3.构建语料库时只收集军事方面的文本,这体现了系统的语料库。(×)
4.中文分词结果中我们一般使用”/V”标记来表示动词的词性。(√)
5.“喜欢不喜欢”可以拆分为“喜欢/不/喜欢”,这属于切分原则。(√)
6.句法分析的任务就是识别句子的句法结构。(√)
7.模型的熵评测方法属于短语结构分析的内部评测方法。(×)
8.语义分析中,诸如主语、宾语等语法关系实际上都是表层结构上的概念。(√)
9.词典中词条本身的定义作为判断其语义的条件,这属于基于义类辞典的消歧。(×)
10.语义角色标注一般是在句法分析的基础上进行的。(√)
11.词袋模型的一个应用例子是朴素贝叶斯模型。(√)
12.多项式分布属于判别式模型。(×)
13.VSM模型一般用于判别式分类模型中,如支持向量机。(√)
14.“的、地、得、了”这些词对确定新闻主题没有帮助,称为停用词。(√)
15.变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。(√)
16.一个词的信息量越大,TF-IDF值越大。(√)
17.出现频率相同的一个词,越分散在多篇文档中,其平均出现次数越小,第二项越大,TF-IDF值越大。(×)
18.在信息检索中,使用最多的权重是词频。(×)
19.余弦相似度计算中,两个向量的夹角越小表示越相似。(√)
20.把句子的语义基于它所含有的词和词组的意义之上,这属于词汇分解学派理论。(√)
二、选择题(每小题1分,共15分)
1.利用计算机系统从大量文档中找到符合用户需要的相关信息,这是指(B)
A. 机器翻译 B. 信息检索 C. 自动文摘 D. 问答系统
2.解决解决词典中同义信息的组织问题的词汇知识库是(C)
A. CLKB B. PDT C. WordNet D. HowNet
3.对非0事件无条件削减某一固定的出现次数值,节留出来的概率均分给0概率事件。这指的是哪一种减值法。(C)
A. Good-Turing法 B. Katz后退法 C. 绝对减值法 D. 线性减值法
4.寻找变量之间的图关系,这属于贝叶斯网络的哪一个任务。(D)
A. 表示 B. 推断 C. 学习 D. 结构学习
5.由字构词(基于字标注)的分词方法使用的是(D)
A. 贝叶斯网络 B. 马尔科夫模型 C. 隐马尔科夫模型 D. 条件随机场
6.汉语属于以下哪一种语言?(B)
A. 曲折语 B. 分析语 C. 黏着语 D. 以上都不是
7.“中国产品质量”这句话的歧义字段链长为(D)
A. 1 B. 2 C. 3 D. 4
8.在短语结构分析中,需要高质量的规则,分析结果与规则质量密切相关,且算法简单,容易实现,开发周期短。这指的是(A)
A. 线图分析法 B. CYK算法 C. 依存语法分析 D. Earley算法
9._________解释自然语言句子或篇章各部分(词、词组、句子、段落、篇章)的含义。(D)
A. 句法分析 B. 词法分析 C. 语法分析 D. 语义分析
10.命题中的格中,对动作或状态而言作为某种因素而牵涉到的无生命的力量或客体。这指的是(B)
A. 施事格 B. 工具格 C. 承受格 D. 客体格
11.设两篇新闻的特征向量为 x (x1, x2, ...) 和 y (y1, y2, ...),它们的欧氏距离为 d(x, y),则相似度similarity(x, y)可以表示为(A)
A. 1/(d(x,y)+1) B. 1/d(x,y) C. 1/(d(x,y)-1) D. d(x,y)/(d(x,y)+1)
12.成功解决了分词二义性问题,这需要采用(B)
A.利用规则分词 B. 利用统计语言模型分词
B.利用词袋模型 C. 利用知识库方法
13.语义网络中,表示一个结点是另一个结点的属性,这是(C)
A. IS-A B. PART-OF C. IS D. HAVE
14.如果根据共现的词来进行词义消歧,则使用的方法是(A)
A. 基于语义定义的消歧 B. 基于义类辞典(thesaurus) 的消歧
C. 基于双语词典的消歧 D. 基于句法分析的消歧
15.依存句法分析器性能评价指标中,所有词中找到其正确支配词并且依存关系类型也标注正确的词所占的百分比,根结点也算在内。这指的是(B)
A. 无标记依存正确率 B. 带标记依存正确率 C. 依存正确率 D. 完全匹配率
三、填空题(每小题1分,共15分)
1.语言的两个属性是语音和_________。(文字)
2.自然语言理解的研究方法分类为理性主义和_________。(经验主义)
3.在构建语言模型中,构建的wi可以是字、词、短语或词类等等,这称为_______。(统计基元)
4.当n=2时, 2-gram (bi-gram) 被称为_____阶马尔可夫链。(1)
5._______是一种基于概率推理的数学模型,又称之为信度网络或者信念网络。(贝叶斯网络)
6._______是一个双重随机过程,即模型的状态转换过程是不可观察的,而可观察事件的随机过程是隐蔽状态转换过程的随机函数。(隐马尔科夫模型)
7.________是自然语言中更能够运用的最小单位。(词)
8.用__________的指标表示测试结果中正确结果的个数占标准答案总数的比例。(召回率或找回率)
9.在PCFG的三个问题中,________算法解决最佳分析结果搜索的问题。(Viterbi)
10.根据格语法理论,句子S可以改写成情态和__________两大部分。(命题)
11.____是句子的中心,名词短语按其特定的格属关系依附于该动词。(动词)
12.____________通过由概念和语义关系组成的有向图来表达知识、描述语义。(语义网络)
13.概念依存理论的三个层次包括动作基元、剧本和_______。(计划)
14.事先知道类别标签的分类方法为____学习。(监督)
15.分析它采用的文法规则通常被计算机科学家和语言学家称为______。(重写规则)
四、简答题(每题10分,共50分)
1. 请列举自然语言处理研究中至少四个基本问题。
2. 请绘制出数据驱动的机器翻译方法流程图。
3.请列举出至少三个语料库类型划分的依据(按什么来划分),并举出例子。
4.请列举出n元文法模型的至少两个应用。
5.假设某个汉语分词系统在一测试集上输出1000个分词结果,而标准答案是600个词语,根据这个答案,系统切分出来的结果中有300个是正确的。那么试求P、R和F1值。
