最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

CRF与规则相结合的地理空间命名实体识别

来源:动视网 责编:小OO 时间:2025-09-25 13:52:42
文档

CRF与规则相结合的地理空间命名实体识别

CRF与规则相结合的地理空间命名实体与规则相结合的地理空间命名实体识别识别鞠久朋1,2,3,张伟伟3,宁建军4,周国栋1,2(1.苏州大学计算机科学与技术学院,江苏苏州215006;2.江苏省计算机信息处理技术重点实验室,江苏苏州215006;3.海量信息技术有限公司,北京100190;4.新民网,上海200041)摘要:提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法。该方法以丰富的知识作为触发条件,用CRF对满足条件的片段作地名及机构名识别,识别出来的命名实体又被解构,CRF
推荐度:
导读CRF与规则相结合的地理空间命名实体与规则相结合的地理空间命名实体识别识别鞠久朋1,2,3,张伟伟3,宁建军4,周国栋1,2(1.苏州大学计算机科学与技术学院,江苏苏州215006;2.江苏省计算机信息处理技术重点实验室,江苏苏州215006;3.海量信息技术有限公司,北京100190;4.新民网,上海200041)摘要:提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法。该方法以丰富的知识作为触发条件,用CRF对满足条件的片段作地名及机构名识别,识别出来的命名实体又被解构,CRF


CRF 与规则相结合的地理空间命名实体与规则相结合的地理空间命名实体识别识别

鞠久朋1,2,3,张伟伟3,宁建军4,周国栋1,2

(1. 苏州大学计算机科学与技术学院,江苏 苏州 215006;2. 江苏省计算机信息处理技术重点实验室,江苏 苏州 215006;

3. 海量信息技术有限公司,北京 100190;

4. 新民网,上海 200041)

摘 要:提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法。该方法以丰富的知识作为触发条件,用CRF 对满足条件的片段作地名及机构名识别,识别出来的命名实体又被解构,CRF 及知识用来进一步判断该命名实体是否表示事件发生地的地理空间信息。实验结果表明,统计与规则方法的结合以及解构算法有效提升了地理空间命名实体识别的性能,准确率、召回率和F1值分别达到92.86%、90.91%、91.87%。

关键词关键词::条件随机场;规则;地理空间属性;命名实体识别

Geospatial Named Entities Recognition

Using Combination of CRF and Rules

JU Jiu-peng 1,2,3, ZHANG Wei-wei 3, NING Jian-jun 4, ZHOU Guo-dong 1,2

(1. School of Computer Science and Technology, Soochow University, Suzhou 215006, China;

2. Jiangsu Provincial Key Laboratory of Computer Information Processing Technology, Suzhou 215006, China;

3. Hylanda Information Technology Co. Ltd., Beijing 100190, China;

4. Xinmin.cn, Shanghai 200041, China)

【Abstract 】A GeoSpatial Named Entities Recognition(GSNER) method based on combination of Conditional Random Fields(CRF) and rules is proposed. This method takes extensive knowledge as trigger conditions. Triggered text fragments are put into CRF Named Entity Recognition(NER) module, and recognized NEs are deconstructed to several components, CRF and knowledge are also employed for classification of GSNE. Experimental results show that, this combination method and the NE deconstruction strategy effectively promotes the performance of GSNER: the overall Precision, Recall, F1 achieves 92.86%, 90.91%, 91.87%.

【Key words 】Conditional Random Fields(CRF); rules; geospatial attributes; Named Entity Recognition(NER) DOI: 10.3969/j.issn.1000-3428.2011.07.071

计 算 机 工 程 Computer Engineering 第37卷 第7期 V ol.37 No.7 2011年4月

April 2011

·人工智能及识别技术人工智能及识别技术·· 文章编号文章编号::1000—3428(2011)07—0210—03 文献标识码文献标识码::A

中图分类号中图分类号::TP18

1 概述

随着智能信息处理技术的发展,对事件的分析需求日益明确。地理空间属性标志着事件发生的地点,是对事件统计、分析的重要维度。地理空间命名实体(GSNE)主要涉及地名、机构名2类。其研究的难点包括识别、解构、指代消解、归一化[1]及层级属性标引等重要课题。本文侧重条件随机场(CRF)与规则相结合的GSNE 识别,介绍大规模知识库及对命名实体的解构,提出一种条件随机场与规则相结合的地理空间命名实体识别方法。

2 研究现状

回顾地理空间命名实体相关任务的研究现状,并进行分析。文献[2]使用知识库,总结出公司名称后缀库、公司类型名称库、公司名称禁止词性库、公司名称禁止词库、公司名称完全禁止库、公司名称不完全禁止库等,并采取2次扫描的方法实现机构名识别。在互联网金融领域新闻文本语料中,封闭测试的Precision/Recall 值为97.13/.13,开放测试的P/R 值为62.18/62.11。封闭测试取得了较好的性能,但封闭测试与开放测试性能的差距较大,可能是由于知识库的不完备造成的。

文献[3]采用基于统计的方法,利用隐马尔科夫模型(HMM),在粗切分基础上进行中文机构名识别,在近2万字《人民日报》语料中,P/R 值达到了/94.5。对比可以发现,基于规则的方法准确率相对较高,而基于统计的方法准确率

不及召回率高。

文献[4]采用HMM 与自动规则提取相结合的方法,首先使用HMM 识别,再利用自动提取的规则对识别结果进行修正。两者的结合使系统对地名及机构名的识别较单纯的HMM 有了大幅提升。在其后的研究中,考察了HMM 、ME 及CRF 等统计模型对NE 识别性能的差异,对规则的方法作了研究。

从调研结果看,机构名比地名的识别困难。这是因为地名大都在一个闭包的集合中,可以通过规则的方法取得较好的性能;机构名识别的难点主要在于其开放性和形式变化的多样性,还有可能是缩语、简称等,因此,通过规则与统计相结合的方法往往能提高性能。

基金项目基金项目::

国家自然科学基金重大研究计划培育项目(90920004);国家自然科学基金资助项目(60873150, 60970056);高等学校博士学科点专项科研基金资助项目(200802850006);江苏省高校自然科学基础研究基金资助重大项目(08KJA520002);江苏省高校自然科学基础研究基金资助项目(08KJD520010);江苏省自然科学基础研究计划基金资助项目(BK2008160);苏州市软件专项基金资助项目(SGR0807);上海市科学技术委员会科研基金资助项目“新闻网站专题页面富媒体信息搜编技术研究及其系统实现”(09dz1502000)

作者简介作者简介::鞠久朋(1986-),男,硕士研究生,主研方向:自然语言处理,命名实体识别;张伟伟,研究员;宁建军,工程师;周国栋,教授、博士生导师

收稿日期收稿日期::2010-08-25 E-mail :jujiupeng@gmail.com

3 相关概念

在探讨关键技术之前,先解释相关概念。

(1)地理空间命名实体

能够进行地理空间位置标引的命名实体及其扩展部分。命名实体的扩展将在(2)中加以介绍。这里,命名实体的概念与MUC评测中对其的定义相同,本文只涉及地名与机构名2类。

(2)命名实体扩展

位置上与命名实体相连、词法语法上与命名实体相结合、语义上与命名实体概念范畴相同的词或短语称为命名实体扩展。特别地,地名、机构名的扩展指与地名、机构名右紧邻,被地名、机构名修饰,并与地名一起表明处所的词或短语。如“长江以北”、“海量信息技术有限公司以南150 m”中的“以北”、“以南150 m”等。

(3)通名、专名与饰名

命名实体内部构件可分为3类:通名,专名与饰名。通名是表示该命名实体类别属性的构件。如“工人体育馆”中的“体育馆”。专名和饰名是含相同通名的命名实体的区别性构件,可作为命名实体简称而使用的为专名,否则为饰名。如:“工人体育馆”中的“工人”为饰名,而“联想公司”中的“联想”为专名。

(4)解构

解构,即解析出命名实体的内部结构。虽然通名、专名、饰名以及扩展单元四者之间并无本质差别,有时也不易区分,但这种区分对本文的工作有现实意义。解构的主要任务就是对于一个地理空间命名实体,通过解构算法,区分内部的结构:通名,专名,饰名及扩展单元。

(5)地名、机构名与地理空间命名实体的关系

并非所有命名实体都表示地理空间信息。事件分析需求才是立足点。例如,“前谷歌大中华区总裁李开复博士在苏大学术报告厅与学子交流”,这里“谷歌”是公司机构名,但不是表地理空间信息的实体,“苏大”是机构名,更具体地,“苏大学术报告厅”表示了事件发生的地点。

4 基于统计的NER及半监督学习

下面介绍基于CRF的NER,并引入半监督学习方法有效利用大规模未标注数据。

4.1 基于CRF的NER

CRF[5]是在给定输入节点的条件下,用于计算输出节点的条件概率的无向图模型。常被用作序列数据的分割和标注。它已被广泛应用于自然语言处理、生物信息学众多领域,如分词、命名实体识别等。在命名实体识别上,CRF的应用得到了广泛而深入的研究[6]。本文使用B、I、O标注方法来标记文本中的命名实体,采用廖先桃等提出的特征模板。特征主要涉及词级特征,包括词、词性及词与其词性的组合。除词级特征外,语言学特征(如是否为机构名后缀)、篇章级特征(如多次出现的词、可指代消解的名词)等也可以被考虑。但这些特征在规则的方法中会再现,故在此未作考虑。

通过对标注结果的出错分析表明,识别出来、但不完全正确的占据一部分,即由于边界错误(B、I序列边界被O打断)引发的出错,如表1所示。

表1 边界错误结果示例

待标注序列出席世界经济论坛年会并访问欧洲…

正确标注o B-nt I-nt I-nt I-nt o o B-ns …

预测结果o B-nt I-nt I-nt o o o B-ns …

其中,“世界经济论坛年会”被人工标注为机构名,但被模型识别成“世界经济论坛”这一机构名。

考虑到CRF在解码过程中采用Viterbi动态规划算法求取全局最优解时,在预测结果中给出了带有概率的Best-N序列标注结果(-n选项)。如果在最优序列标注概率小于某一阈值的情况下退而取其次,通过适当的后处理,可在较小准确

率损失的代价下,大幅提高召回率,通过这种tradeoff从某种意义上提高F1。

4.2 未标注语料

统计机器学习方法面临的最大困难是训练数据的不足。北大语料中新闻内容比较陈旧,且用语相对规范,这样训练出来的模型在真实语料(尤其是互联网文本)上的性能可以预见。然而除此以外可用于命名实体研究的语料极其缺乏。

因此,本文采用了Self-Training,一种半监督的学习方法来有效利用大量的未作NE标注的互联网数据,从而提高NER在真实文本上的泛化能力。Self-Training框架如图 1 所示。

图1 Self-Training 框架

算法1

Input初始训练数据集合D l,未标注数据集合D u

Repeat用训练数据D l训练出一个分类器f i,用f i预测未标注数据D u,在预测结果集合中找到置信度较高(大于某一阈值)的集合D u’,作D l =D l+ D u’,D u=D u -D u’,i++ Until D u’为空

Output n个分类器f1、f2、…、f k

每轮迭代可以得到分类器k和新的标注数据集D l,阈值可以固定,也可以在计算过程中动态求得。这样经过n轮迭代后可以得到n个分类器。对这n个分类器作组合形成最终的模型。组合方式可以是只采用最终的分类器n,也可以是给#1~#n这n个分类器均衡的权重1/n,还可以是指数方式的权重αi等。

5 基于规则的方法

本节介绍收集到的知识及其在NER上的应用。

5.1 人类

人类知识库

知识库

本文收集了大量的人类知识来形成强有力的规则,这些知识包括下面的5类。

(1)行政区划及其层级关系

对中文地名而言,收集了我国三级行政区划信息作为专名词典,包括省市、地区(二级市)、区县。具体来说,包括了全称、简称、级别、编号和上一级编号,总计2 926个区县名称。这样的层级关系为归一化以及在地图上的标引提供了强有力的支持。

(2)地名通名词典

地名通名包括海域、水系、陆地地形、(准)行政区划、建筑物(场地)、交通设施、水电通信、居住点等。分别举例如下:海峡,河谷,平原,特区,体育场,火车站,发电站,212 计算机工程2011年4月5日楼等,词典总计382个条目。

(3)黄页中的公司名

公司名全称是一类知识,但为更具普遍性,从中提取了

企业名通名、饰名与专名。通名包括“公司”、“有限公司”、

“集团”等后缀;饰名通常表明行业信息以及公司所处的位

置信息。如,“天津市海量信息技术有限公司”,“天津市”是

企业处所饰名、“海量”是专名、“信息科技”是表示行业信

息的饰名、“有限公司”为企业名通名。

(4)扩展单元关键词

针对扩展单元,本文收集了120个扩展单元候选词,主

要是表示方位词。比如中北部、以东、西侧、南麓等。将这

些词汇按逆文档率(IDF)递增排列,出现在开头的被检索到的

概率就越大,能够从某种意义上提高了系统在时间上的性能。

(5)句型句式

除了触发词外,句式通常也能标识一定的地理空间信息,

如“在XX地发生”,“出访XX”等。通过对这些句式的总结

也能形成相应知识。

5.2 基于规则匹配的NER

对这5类知识的归纳,形成泛化能力较强的规则,能提

高在文本中知识检索的效率。而基于规则匹配的NER就是对

满足规则的文本片段设置标记信息,并设置触发条件,进而

移交CRF统计模块。

匹配结果示例如表2所示。其中“天津”为行政地名,

记作LOC-ZXS直辖市;“有限公司”为企业名后缀ORG-SFX;

“在”通常后接地点信息,为地点前缀GSNE-PFX。这些知

识的引入将对识别起到指导性作用。

表2 规则匹配结果示例

文本天津市海量信息科技有限公司出席在大连召开的研讨会

词性ns nz n n v d ns v d n

结果LOC-

ZXS ORG-

PROP

ORG-

DEC

ORG-

SFX

O

GSNE-

PFX

LOC-

CTY

O O

O 随着知识平台的运营,词典库、句式库规模的扩大,NER 的查全率将不断提高。

6 系统架构及GSNE判别

首先展示基于统计与规则相结合的GSNER系统架构,进而介绍系统GSNE的判别方法。

6.1 系统架构

系统架构如图2所示。

文档

CRF与规则相结合的地理空间命名实体识别

CRF与规则相结合的地理空间命名实体与规则相结合的地理空间命名实体识别识别鞠久朋1,2,3,张伟伟3,宁建军4,周国栋1,2(1.苏州大学计算机科学与技术学院,江苏苏州215006;2.江苏省计算机信息处理技术重点实验室,江苏苏州215006;3.海量信息技术有限公司,北京100190;4.新民网,上海200041)摘要:提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法。该方法以丰富的知识作为触发条件,用CRF对满足条件的片段作地名及机构名识别,识别出来的命名实体又被解构,CRF
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top