最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

什么是语料库(网上下载)

来源:动视网 责编:小OO 时间:2025-10-02 07:38:03
文档

什么是语料库(网上下载)

第六章语料库詹卫东http://ccl.pku.edu.cn/doubtfire/提纲1什么是语料库2语料库的发展简史3语料库的设计4语料库的加工5语料库的应用1什么是语料库在今天,仅仅将语料库视为存放语言材料的仓库,是令人无法忍受的观点。新一代的兆亿级的大规模语料库可以作为语言模型的训练和测试手段,来评价一个语言模型的质量;此外,诸如困惑度之类的统计方法也可利用语料库来评估一个语法模型对语料的解释能力。——GeoffreyLeech,TheStateofTheArtinCorpusLingu
推荐度:
导读第六章语料库詹卫东http://ccl.pku.edu.cn/doubtfire/提纲1什么是语料库2语料库的发展简史3语料库的设计4语料库的加工5语料库的应用1什么是语料库在今天,仅仅将语料库视为存放语言材料的仓库,是令人无法忍受的观点。新一代的兆亿级的大规模语料库可以作为语言模型的训练和测试手段,来评价一个语言模型的质量;此外,诸如困惑度之类的统计方法也可利用语料库来评估一个语法模型对语料的解释能力。——GeoffreyLeech,TheStateofTheArtinCorpusLingu
第六章语料库

詹卫东

http://ccl.pku.edu.cn/doubtfire/提纲

1 什么是语料库

2 语料库的发展简史

3 语料库的设计

4 语料库的加工

5 语料库的应用1 什么是语料库

在今天,仅仅将语料库视为存放语言材料的仓库,是令人无法忍受的观点。新一代的兆亿级的大规

模语料库可以作为语言模型的训练和测试手段,

来评价一个语言模型的质量;此外,诸如困惑度

之类的统计方法也可利用语料库来评估一个语法

模型对语料的解释能力。

——Geoffrey Leech, The State of The Art in

Corpus Linguistics, 1991, In Aijmar, K.

and Altenberg, B. , eds. , English Corpus

Linguistics: Studies in Honor of Jan

Svartvik, London:Longman, 1991.关于语料库的三点基本认识

语料库中存放的是在语言的实际使用中真实出现过的语言材料;

语料库是以电子计算机为载体承载语言知识的基础资源;

真实语料需要经过加工(分析和处理),才能成为有用的资源;

语料库示例(一)

北京大学计算语言所富士通人民日报标注语料库样例:历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月/t 10日/t 11时/t 50分/t 。/w

……

[中国/ns /n]nt 顺利/ad 恢复/v 对/p /ns 行使/v 主权/n ,/w 并/c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港/l ”/w 、/w 高度/d 自治/v 的/u 方针/n 保持/v /ns 的/u 繁荣/an 稳定/an 。/w

语料库示例(二)

London-Lund英语口语语料库样例

^what a_bout a cigar\\ette# ./

*((4sylls))*/

*I ^w\\on't have one th/anks#* ---/

^aren't you .going to sit d/own# -/

^[/\\m]# -/

^have my _coffee in p=eace# ---/

^quite a nice .room to !s\\it in ((actually))#/

*^\\isn't* it#/

*^y/\\es#* ---/

转引自Tony McEnery& Andrew Wilson, 1996, Corpus Linguistics, p55,

语料库与语言知识库

语言知识库(Linguistic Database)语料库(corpora/corpus)2 语料库发展简史

20世纪50年代Chomsky的影响 第一代(1970-80年代)

第二代(1980-90年代)

第三代(1990年代)

?(21世纪)

UPenn Treebank

美国Pennsylvania大学1980年代末开始发起 由该校计算机系M.Marcus主持

1993年,完成了对近300万英语词的句子语法结构标注

2000年发布中文树库(第一版)

10万词,4185个句子,325data files(新华社语料)

2004年发布中文树库4.0版

404,156 words, 6,633Hanzi, 15,162 sentences, and 838 data files(、、语料)宾州大学中文树库示例

他还提出一系列具体措施和要点。

他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC /NN 要点/NN 。/PU

语料的选取

精品原则

有影响力原则

随机挑选原则

高流通度原则

典型性原则

易于获得原则

具有统计样本意义原则 符合语言规范原则

4 语料库的加工

语料库标注(Annotation)

1)词性标记(Part-of-speech tagging)

2)句法层次和范畴标记(Grammatical parsing)

3)词义标记(Word sense tagging)

4)篇章指代标记(Anaphoric annotation)

5)韵律标记(Prosodic annotation)

……

http://www.comp.lancs.ac.uk/computing/research/ucrel/annotation.html

双语语料库(Bilingual Corpora)加工

段落对齐

句子对齐

词对齐

短语对齐双语句子对齐

基于长度(length-based)的对齐方法Gale & Church (1993)

纯粹基于句子的长度来估计对齐可能性

资源要求少,算法效率相对较高

基于词(word-based)的对齐方法

一般要依赖词典资源,算法效率相对较低

句长相关性Gale & Church(1993)

δ呈正态分布Gale & Church(1993)

句子长度差距关系(续)

随机变量X的期望c和方差V2可以从已经对齐好的双语平行语料库中估算得到

比如:英语-法语 c ≈72302/68450 ≈1.06

V2≈5.6

Gale & Church (1993)

英语-汉语 c ≈1.46 V2≈2.9

刘昕等(1995)

基于长度的双语句子对齐方法(续) 对公式1取对数,将乘法运算变为加法运算

)))((log ))|(((log ),(22Match P Match P t s Score j i +−=δScore 是对两个句子配对可能性的一个评估,可以形象地理解为两个句子之间的距离。得分越低,表示两个句子之间距离越近,因而配对的可能性越高

5 语料库应用

支持自然语言处理应用系统开发 支持语言学研究和语言教学研究语料库对NLP的支持

基于大规模语料库的语音识别;

基于大规模语料库的音字转换技术(中文输入);

基于大规模语料库的自动文本校对技术;

利用语料库训练HMM模型进行分词,词性标注,词义标注,等等;

基于语料库的句法分析;

基于语料库的机器翻译;

基于机器学习技术,通过语料库获取语言知识,包括搭配特征,句法规则,等等;

基于语料库的语言模型训练和语法模型评价;

支持NLP自动评测;

基于语料库的语言研究

Concordance (索引——相关集列)

Collocation (搭配的定量研究)

Cobuild Concordance and Collocations Sampler

http://titania.cobuild.collins.co.uk/form.html

“中研院”现代汉语平衡语料库

http://www.sinica.edu.tw/ftms-bin/kiwi.sh

孙茂松等,1997,《汉语搭配定量分析初探》,载《中国语文》1997年第1期。pp29-38。

关于搭配的定义

搭配是重复出现的;

“大房子”——“大手笔”——“大文科”/ “大历史”

搭配是不可类推的;(自由组合——受限组合) ““吃白菜”——吃豆腐”——“喝西北风”

搭配一般具有正常的句法结构;

“戴高帽”——? “戴高”——“风马牛不相及”

搭配通常与领域相关;

“语言习得”——“学说话”“风险投资”

搭配强度的量化分析示例

候选搭配:(能力,弱) (能力,大)

通过语料库统计得到:

1),(3=−弱能力Count 3

),(1=弱能力Count 5

),(2=弱能力Count 6),(5=−大能力Count 4),(4=−大能力Count 8

),(3=−大能力Count 9

),(1=大能力Count ……

……

5

),(5=大能力Count 2241

)(=能力Count 19913

)(=大Count 177

)(=弱Count

“尖锋位置”的语言学含义 反映W j 与W i 可能形成的句法结构 能力-具有:尖峰位置-3, -2 述宾结构 能力-差:尖锋位置 1 主谓结构 能力-提高:尖峰位置-4,-3; 1,3 述宾/主谓 能力-吞吐:尖峰位置-1 定中结构

),(),(13提高能力提高能力Z Z >−

文档

什么是语料库(网上下载)

第六章语料库詹卫东http://ccl.pku.edu.cn/doubtfire/提纲1什么是语料库2语料库的发展简史3语料库的设计4语料库的加工5语料库的应用1什么是语料库在今天,仅仅将语料库视为存放语言材料的仓库,是令人无法忍受的观点。新一代的兆亿级的大规模语料库可以作为语言模型的训练和测试手段,来评价一个语言模型的质量;此外,诸如困惑度之类的统计方法也可利用语料库来评估一个语法模型对语料的解释能力。——GeoffreyLeech,TheStateofTheArtinCorpusLingu
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top