
随着互联网的发展,电子文档数量急剧增加,自动文摘以其简洁精练的特点越来越受到人们的重视。然而,对于如何更有效地评估自动文摘系统的性能却没有得到充分的关注,现在还没有一种让大家普遍公认的客观评价方法。这也在一定程度上制约了自动文摘的发展。目前,自动文摘的评价方法大致可以分为两类:一种称作内部评价(Intrinsic)方法,它通过直接分析摘要的质量来评价文摘系统;第二种称作外部评价(Extrinsic)方法,它是一种间接的评价方法,将自动文摘应用于某一个特殊任务中,根据摘要功能提高任务的效果来评价自动文摘系统的性能。两种评价方法各有其优劣,这也是导致自动文摘没有一个客观公认方法的主要原因。由于外部评价方法评测只是针对特定任务,如主要是针对大规模文摘系统的评价,局限性大,不适合研究者们对文摘方法做改进,该文就主要针对内部评价进行讨论。内部评价方法则需要与理想文摘进行比较,而理想文摘难以获取,一般由专家给定,由于受主观影响,专家的意见难以达成一致,因此具有主观性强的缺陷,但其方法简单、容易实现,适用于研究者对自己的文摘系统进行评价。
1内部评价的不足
通常内部评价方法是按信息的覆盖面和正确率来评价文摘质量的,一般采用与理想文摘相比较的方法。这种评价方法
源于信息抽取技术,它将机器摘要与理想文摘在召回率(recall)、准确率(precision)等几个指标上进行比较,这种评价方法简称为P/R方法。召回率和准确率的计算公式如下:
R=N hm
N h
(1)
P=N hm
N m
(2)
F_mesure=2×P×R
P+R
(3)
其中:N
hm
为同时被机器摘要和理想文摘抽取的句子数目;N
h 为理想文摘抽取的句子数目;N
m
为机器摘要抽取的句子数目。
对式(1)~(3)进行分析,可以发现内部评价方法存在以下两个缺陷:
(1)理想文摘难以获取:现在所采用的理想文摘一般都是由专家对原文进行抽取而得到的。为了避免一个专家抽取摘要时过多地引入个人观点,通常是请多个专家为同一篇文章进行手工摘要,然后对他们所得到的摘要句子集合进行交集运算,或是取大多数意见构成理想文摘句子集合。然而,专家的一致性意见是很低的。这主要有两个原因:当两个句子大约等价时,专家很可能随机选择其中一个进入摘要句;专家对文章主要内容意见不一致,则选择的摘要句也就不相同。这就导致了这种摘要方式具有很强的主观性和随机性,其细微差别都将对后面
基于语义相似度的自动文摘评价方法
张培颖
ZHANG Pei-ying
中国石油大学(华东)计算机与通信工程学院,山东东营257061
College of Computer&Communication Engineering,University of Petroleum(East China),Dongying,Shandong257061,China
E-mail:zhangpeiying@hdpu.edu.cn
ZHANG Pei-ying.Evaluation method of automatic summarization based on semantic similarity.Computer Engineering and Applications,2009,45(25):145-147.
Abstract:Against to the shortcoming of strong subjectivity and the lack of deep-layer semantic information in existing internal evaluation of automatic summarization,by using probability latent semantic analysis to calculate the contribution on semantics including the original document and summaries,and then the similarity is compared.The summary which matches to semantic information of original document is got.Without human intervention,the results show that the evaluation method based on the semantic similarity has the feature of simplicity and stability and is closer to the natural model.
Key words:automatic summarization;evaluation method;probabilistic latent semantic analysis;similarity
摘要:针对现有自动文摘内部评价方法存在主观性强,无法体现深层语义的缺陷,提出利用概率潜在语义分析计算原文和待评价摘要在潜在语义上的贡献,通过相似度的比较,得出符合原文语义的文摘。整个评价方法无需人为干预,实验表明,基于语义相似度的评价方法实现简单、效果稳定,是一种更接近自然模型的评价方法。
关键词:自动文摘;评价方法;概率潜在语义分析;相似度
DOI:10.3778/j.issn.1002-8331.2009.25.044文章编号:1002-8331(2009)25-0145-03文献标识码:A中图分类号:TP391.1
基金项目:中国石油大学(华东)计算机与通信工程学院青年教师创新基金。
作者简介:张培颖(1981-),男,讲师,主要研究领域为:自然语言理解,信息检索等。
收稿日期:2008-05-14修回日期:2008-07-28
Computer Engineering and Applications计算机工程与应用145
Computer Engineering and Applications 计算机工程与应用
2009,45(25
)图1“文档-潜在语义-词”的关系
文档()()词
的评价产生巨大的影响。
(2)P/R 的缺陷:
从准确率和召回率公式中可以发现,它采用的是布尔值来判断一个句子。也就是说,机器摘要与理想文摘的句子是同一句话就为真;否则为假,这样判断过于简单,而且无法体现文本语义信息。
2概率潜在语义分析
Hoffmann 针对潜在语义分析过程中奇异值分解的物理意义不够明确,词义聚类的效果较难控制;而且算法的空间和时间复杂度太大的不足,提出了一种新的方法-概率潜在语义分
析(Probabilistic Latent Semantic Analysis ,PLSA
)[1-3],该方法使用概率模型计算“文档—潜在语义—词”三者之间的关系,文档和词都可以映射到同一个语义空间,这样文档和词两者之间的相似度都可以通过计算语义空间上的夹角而得以量化。
概率潜在语义分析的基本思想是对于给定文档集D={d 1,d 2,…,d m }和词集W={w 1,w 2,…,w n }以及文档和词的共现矩阵
A =|a ij |n ×m ,其中a ij 代表不同词w j 在文档d i 中的权值。使用Z={z 1,z 2,…,z k }表示潜在语义的集合,k 为指定的一个常数。
概率潜在语义分析假设词-文档对之间是条件的,并且潜在语义在
文档或词上分布也是条件的。在上面假设的前提下,
可使用下列公式来表示词-文档的条件概率:
p (w j |d i )=k
k =1Σp (w j |z k )p (z k |d i
)(4)
上式中的p
(w j |z k )为潜在语义在词上的分布概率,也可以解释为词对潜在语义的贡献度,通过对p (w j |z k )排序可以得到潜在语义的一个直观的词的表示。p (z k |d i )表示文档中的潜在语义分布概率。“文档-潜在语义-词”三者之间的关系如图1所示。
概率潜在语义分析使用最大期望EM (Expectation Maxi -
mization
)算法对潜在语义模型进行拟合[2-3]。在使用随机数初始化之后,交替实施E 步骤和M 步骤进行迭代计算。在E 步骤中计算何一个(d i ,w j )对产生潜在语义z k 的先验概率:
P (z k |d i ,w j )=P (w j |z k )P (z k |d i
)k
l =1ΣP
(w j |z l
)P (z l |d i
)(5)在M 步骤中,使用下列公式对模型重新估计
P (w j |z k )=
n
i =1
Σa
(d i
,w j
)P (z k
|d i
,w j
)m j =1Σn
i =1
Σa
(d i
,w j
)P (z k
|d i
,w j
)(6)
P (z k |d i )=m
j =1
Σa
(d i
,w j
)P (z k
|d i
,w j
)a (d i
)(7)
当L 期望值的增加量小于一个阈值时停止迭代,此时得到一个最优解:
E (L )=n
i =1
Σm
j =1
Σa (d i ,w j )k
l =1
ΣP (z l |d i ,w j )log[p (w j |z k )P (z k |d i )](
8)其中a (d i ,w j )代表词-文档矩阵的权值a ij 。
3基于语义的自动文摘评价方法
理论上,理想文摘不但要在文本字句上尽量使用原文的主题句,更重要的是在语义上符合原文表达的含义,因此在评价方法设计上,结合概率语义分析从语义上来衡量参评文摘的效果,这样既解决了难以获得理想文摘的困难,又解决了使用P/R 布尔值判断造成的缺陷。基于概率潜在语义分析的评价方法包括3个步骤。
3.1建立基于关键词抽取的索引模型
关键词是一个文档中有意义、有代表性的字符串单元,比
如:人名,地名,音译名,技术名词和缩写词等,它们是一个文档主题概念的集中体现[4]。由于汉语分词以及未登录识别中存在的困难,自动关键词获取成为中文信息处理中的一个重要的基础性的问题。目前,中文以及其他亚洲语言的自动获取关键词技术已经取得了一定的成果。采用了一种基于种子扩展的算法来从语料中自动获取关键词。基于种子扩展的关键词自动获取算法的基本思想是:
(1)对文档集合进行聚类;(2)分别对每个文档类进行关键词抽取;(3
)合并所有文档类中的关键词。以字为单位对文档集合进行聚类,形成k 个文档类,然后把每个文档类中的所有文档合并为一个单一的文档。因为只需要粗略地把文档集合分成k 个文档类,所以只使用了简单的
K -Means 算法,
而没有使用其他复杂的聚类算法。基于种子扩展的关键词抽取算法如下:
F d (t
)为串t 在文档中出现的次数;O 为给定的阈值
(O>1);T={};
搜集文档d 中所有的种子,加入到集合S 中;对于集合S 中的每一个种子c {
Q={t :t 包括c 并且F d (t
)≥O};若Q ≠NULL {
max-t ←Q 中最长的字符串;T ←T+{max-t};
把max-t 从集合Q 中删除;对于Q 中每一个其他字符串t{如果t 是max-t 的子串{F d (t )←F d (t )-F d (max-t );如果F d (t
) 返回T 作为文档d 中的关键词集合。 3.2构造 “文档-词”矩阵在建立索引之后,将原文和所有参评文摘作为待分析的文 档集,通过统计每个词在各个文档中出现的频率便可以得到 N ×M 维的“文档-词”矩阵M (d ,w ),然后使用下列tf.idf 公式对矩阵进行标准化。其中,freq 为词在文档中出现的频率;docfreq 表示包含词的文档数;numDocs 则表示系统中的文档总数。 M (d ,w )=idf (term )freq 姨i df (term )=log n numDocs docfreq+1 +1.姨姨0146 2009,45(25)表14种不同评价方法的评价结果 文摘压缩率/(% )1015202530 精确度0.63960.61260.75470.72510.7517 召回率0.51870.54180.51510.63110.6872 语义相似计算 0.50550.51310.51980.52610.5126 F-measure 0.57280.60010.62730.67490.7150 使用tf.idf 公式是依据这样一个事实:在很多文档中出现 的那些高频词往往并不能反映文档的主题,而那些并不经常出现的词往往很好地暗示了文档的主题。给那些经常出现在一个 文档中,而不常出现在其他文档中的词以更高的权重,即让 “特别的词” 从“一般的词”中凸现出来。3.3使用EM 算法迭代求解 构造一个k 维的语义空间Z ,按照类似潜在语义分析中的 矩阵的表示方式建立概率潜在语义分析模型U =(P (z k |d i ))k ,i ,V =(P (w j |z k ))j ,k 。 随机产生矩阵U ,V 中的每一个分量,使得U 矩阵的每一行和V 矩阵的每一列的累加和为1。其中,U 矩阵表示潜在语义在文档中的概率分布;V 矩阵表示潜在语义在词中的概率分布。 采用EM 算法对整个模型进行优化,在E 步骤中按照当前矩阵U 和矩阵V 的值,用式(5)计算每一个(d i ,w j )对产生潜在语义z k 的先验概率,在M 步骤中用式(6)和式(7)分别对矩阵U 和矩阵V 中的概率值进行重新估计,交替进行E 步骤和M 步骤,直到式(8)计算所得的值收敛。至此,就建立好概率潜在语义模型了。 3.4语义相似度计算 通过EM 算法得到潜在语义在原文和待比较的文摘上的概率分布向量P (z|d 0)、P (z|d i ),最后通过计算P (z k |d 0)和P (z k |d i )的夹角余弦得到原文和文摘的相似度。概率潜在语义分析提供了一种混合向量空间模型的相似度计算机制,后面的实验结果表明它具有稳定的性能。 CosSim (Z d 0,Z di )= Σ k j =1 Z d 0,j ×Z di ,j Σ k j =1 Z 2 d 0,j 姨 Σ k j =1 Z 2 di ,j 姨 4 实验结果及分析 为了检验该评价方法的可行性,在语料库随机抽取了150 篇实例文章按压缩率(文摘比例)分别为10%、15%、20%、25%、 30%。摘取文摘后,所得文摘的精度、召回率、F-measure 、 语义相似计算(本方法)的值如表1所示。图2是四种评价方法对应的数据比较图。从数据或图中均可以看出,系统在不同压缩率的情况下,其精确度、召回率、F-measure 值变化都较大, 而语义相似计算值在五种压缩率不同的情况下,其值几乎均保持不变,维持在0.5的附近。 5结论 提出了一种基于概率潜在语义分析的自动文摘评价方法, 其特点是利用潜在语义空间的相似度运算,而不是单纯的词频或语句包含关系,由于潜在语义索引将词和文本均映射在同一语义空间,使得评价结果比较客观可靠、稳定性和可操作性强,并且不依赖于领域知识,不需要人工的参与,完全建立在文本集上。在文摘压缩率不同情况下,其评价值均相对稳定,使得文摘系统在不同压缩率情况下具有可比性。 参考文献: [1]金博, 史彦军,滕弘飞.基于语义理解的文本相似度计算[J].大连理工大学学报,2005,45(2):291-297.[2]Radev D R ,Jing Hong yan ,Stysm ,et al.Centroid based summariza - tion of multiple documents[J].Information Processing and Manage -ment ,2004,40:919-938.[3]Gong Yi hong ,LIU Xin.Generic text summarization using relevance measure and latent semantic analysis[C]//Proc of ACM SIGIR ’01.New Orleans :ACM Press ,2001:19-25.[4]Yang Lingpeng ,Ji Donghong ,Li Tang.Document re -ranking based on global and local terms[C]//Proceedings of 3rd ACL SIGHAN Workshop.Barcelona ,Spain :[s.n.],2004:17-23.[5]Hofmann T.Probabilistic latent semantic indexing[C]//Proceedings of the 22nd International Conference on Research and Development in Information Retrieval.Berkeley ,California :[s.n.],1999:50-57.[6]Hofmann T.Probabilistic latent semantic analysis[C]//Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence.Stock -holm :[s.n.],1999:2-296.[7]季姮, 罗振声,万敏,等.基于概念统计和语义层次分析的英文自动文摘研究[J].中文信息学报,2003,17(2):14-20.出的经验,尚没有从理论上求出最佳值或最合适的值,这将是未来值得进一步研究的重点。 参考文献: [1]张志刚,陈静.一种HTML 网页净化方法[J].情报学报,2004,23 (4):387-393. [2]许文, 都云程.一种通用HTML 网页主题信息提取方法[J].现代图书情报技术,2007(1). [3]黄文陪, 杨静.基于分块的网页正文信息提取算法研究[J].计算机应用,2007(S1). [4]孙承杰, 关毅.基于统计的网页正文信息抽取方法的研究[J].中文信息学报,2004,18(5):17-22. [5]朱永盛,武港山.基于Web 的新闻信息抽取[J].计算机工程,2006,32 (10).[6]胡国平,张巍.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6).[7]李蕾, 王劲林.基于FFT 的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151.[8]中科计算技术转移中心.I3S 网页正文提取系统I3S HTMLExtractor [CP/OL].http ://www.i3s.ac.cn/ProductShow.asp?ArticleID=98.[9]梅雪, 程学旗.一种全自动生成网页信息抽取Wrapper 的方法[J].中文信息学报,2008,22(1).[10]赵欣欣,索红光.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3). ( 上接128页) 张培颖:基于语义相似度的自动文摘评价方法 147
