
詹卫东
http://ccl.pku.edu.cn/doubtfire/提纲
1 什么是语料库
2 语料库的发展简史
3 语料库的设计
4 语料库的加工
5 语料库的应用1 什么是语料库
在今天,仅仅将语料库视为存放语言材料的仓库,是令人无法忍受的观点。新一代的兆亿级的大规
模语料库可以作为语言模型的训练和测试手段,
来评价一个语言模型的质量;此外,诸如困惑度
之类的统计方法也可利用语料库来评估一个语法
模型对语料的解释能力。
——Geoffrey Leech, The State of The Art in
Corpus Linguistics, 1991, In Aijmar, K.
and Altenberg, B. , eds. , English Corpus
Linguistics: Studies in Honor of Jan
Svartvik, London:Longman, 1991.关于语料库的三点基本认识
语料库中存放的是在语言的实际使用中真实出现过的语言材料;
语料库是以电子计算机为载体承载语言知识的基础资源;
真实语料需要经过加工(分析和处理),才能成为有用的资源;
语料库示例(一)
北京大学计算语言所富士通人民日报标注语料库样例:历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月/t 10日/t 11时/t 50分/t 。/w
……
[中国/ns /n]nt 顺利/ad 恢复/v 对/p /ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v /ns 的/u 繁荣/an 稳定/an 。/w
语料库示例(二)
London-Lund英语口语语料库样例
^what a_bout a cigar\\ette# ./
*((4sylls))*/
*I ^w\\on't have one th/anks#* ---/
^aren't you .going to sit d/own# -/
^[/\\m]# -/
^have my _coffee in p=eace# ---/
^quite a nice .room to !s\\it in ((actually))#/
*^\\isn't* it#/
*^y/\\es#* ---/
转引自Tony McEnery& Andrew Wilson, 1996, Corpus Linguistics, p55,
语料库与语言知识库
语言知识库(Linguistic Database)语料库(corpora/corpus)2 语料库发展简史
20世纪50年代Chomsky的影响 第一代(1970-80年代)
第二代(1980-90年代)
第三代(1990年代)
?(21世纪)
UPenn Treebank
美国Pennsylvania大学1980年代末开始发起 由该校计算机系M.Marcus主持
1993年,完成了对近300万英语词的句子语法结构标注
2000年发布中文树库(第一版)
10万词,4185个句子,325data files(新华社语料)
2004年发布中文树库4.0版
404,156 words, 6,633Hanzi, 15,162 sentences, and 838 data files(、、语料)宾州大学中文树库示例
他还提出一系列具体措施和要点。
他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC /NN 要点/NN 。/PU
语料的选取
精品原则
有影响力原则
随机挑选原则
高流通度原则
典型性原则
易于获得原则
具有统计样本意义原则 符合语言规范原则
4 语料库的加工
语料库标注(Annotation)
1)词性标记(Part-of-speech tagging)
2)句法层次和范畴标记(Grammatical parsing)
3)词义标记(Word sense tagging)
4)篇章指代标记(Anaphoric annotation)
5)韵律标记(Prosodic annotation)
……
http://www.comp.lancs.ac.uk/computing/research/ucrel/annotation.html
双语语料库(Bilingual Corpora)加工
段落对齐
句子对齐
词对齐
短语对齐双语句子对齐
基于长度(length-based)的对齐方法Gale & Church (1993)
纯粹基于句子的长度来估计对齐可能性
资源要求少,算法效率相对较高
基于词(word-based)的对齐方法
一般要依赖词典资源,算法效率相对较低
句长相关性Gale & Church(1993)
δ呈正态分布Gale & Church(1993)
句子长度差距关系(续)
随机变量X的期望c和方差V2可以从已经对齐好的双语平行语料库中估算得到
比如:英语-法语 c ≈72302/68450 ≈1.06
V2≈5.6
Gale & Church (1993)
英语-汉语 c ≈1.46 V2≈2.9
刘昕等(1995)
基于长度的双语句子对齐方法(续) 对公式1取对数,将乘法运算变为加法运算
)))((log ))|(((log ),(22Match P Match P t s Score j i +−=δScore 是对两个句子配对可能性的一个评估,可以形象地理解为两个句子之间的距离。得分越低,表示两个句子之间距离越近,因而配对的可能性越高
5 语料库应用
支持自然语言处理应用系统开发 支持语言学研究和语言教学研究语料库对NLP的支持
基于大规模语料库的语音识别;
基于大规模语料库的音字转换技术(中文输入);
基于大规模语料库的自动文本校对技术;
利用语料库训练HMM模型进行分词,词性标注,词义标注,等等;
基于语料库的句法分析;
基于语料库的机器翻译;
基于机器学习技术,通过语料库获取语言知识,包括搭配特征,句法规则,等等;
基于语料库的语言模型训练和语法模型评价;
支持NLP自动评测;
基于语料库的语言研究
Concordance (索引——相关集列)
Collocation (搭配的定量研究)
Cobuild Concordance and Collocations Sampler
http://titania.cobuild.collins.co.uk/form.html
“中研院”现代汉语平衡语料库
http://www.sinica.edu.tw/ftms-bin/kiwi.sh
孙茂松等,1997,《汉语搭配定量分析初探》,载《中国语文》1997年第1期。pp29-38。
关于搭配的定义
搭配是重复出现的;
“大房子”——“大手笔”——“大文科”/ “大历史”
搭配是不可类推的;(自由组合——受限组合) ““吃白菜”——吃豆腐”——“喝西北风”
搭配一般具有正常的句法结构;
“戴高帽”——? “戴高”——“风马牛不相及”
搭配通常与领域相关;
“语言习得”——“学说话”“风险投资”
搭配强度的量化分析示例
候选搭配:(能力,弱) (能力,大)
通过语料库统计得到:
1),(3=−弱能力Count 3
),(1=弱能力Count 5
),(2=弱能力Count 6),(5=−大能力Count 4),(4=−大能力Count 8
),(3=−大能力Count 9
),(1=大能力Count ……
……
5
),(5=大能力Count 2241
)(=能力Count 19913
)(=大Count 177
)(=弱Count
“尖锋位置”的语言学含义 反映W j 与W i 可能形成的句法结构 能力-具有:尖峰位置-3, -2 述宾结构 能力-差:尖锋位置 1 主谓结构 能力-提高:尖峰位置-4,-3; 1,3 述宾/主谓 能力-吞吐:尖峰位置-1 定中结构
),(),(13提高能力提高能力Z Z >−
