最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

基于Stacking组合分类方法的中文情感分类研究

来源:动视网 责编:小OO 时间:2025-09-30 15:30:07
文档

基于Stacking组合分类方法的中文情感分类研究

第24卷第5期2010年9月中文信息学报JOURNALOFCHINESEINFORMATIONPROCESSINGVol.24,No.5Sep.,2010文章编号:10030077(2010)05005606基于Stacking组合分类方法的中文情感分类研究李寿山,黄居仁(理工大学中文及双语学系,中国)摘要:情感文本分类(简称情感分类)是一种面向主观信息分类的文本分类任务。目前,由于其广泛的应用前景,该任务在自然语言处理研究领域中得到了普遍关注,相继出现多种用于情感文本分类的有监督的分
推荐度:
导读第24卷第5期2010年9月中文信息学报JOURNALOFCHINESEINFORMATIONPROCESSINGVol.24,No.5Sep.,2010文章编号:10030077(2010)05005606基于Stacking组合分类方法的中文情感分类研究李寿山,黄居仁(理工大学中文及双语学系,中国)摘要:情感文本分类(简称情感分类)是一种面向主观信息分类的文本分类任务。目前,由于其广泛的应用前景,该任务在自然语言处理研究领域中得到了普遍关注,相继出现多种用于情感文本分类的有监督的分
第24卷 第5期2010年9月

中文信息学报

JOU RNAL OF CH INESE INFORM AT ION PROCESSIN G

V ol.24,No.5Sep.,2010

文章编号:1003 0077(2010)05 0056 06

基于Stacking 组合分类方法的中文情感分类研究

李寿山,黄居仁

(理工大学中文及双语学系,中国)

摘 要:情感文本分类(简称情感分类)是一种面向主观信息分类的文本分类任务。目前,由于其广泛的应用前景,该任务在自然语言处理研究领域中得到了普遍关注,相继出现多种用于情感文本分类的有监督的分类方法。该文具体研究四种不同的分类方法在中文情感分类上的应用,并且采用一种基于Stacking 的组合分类方法,用以组合不同的分类方法。实验结果表明,该组合方法在所有领域都能够获得比最好基分类方法更好的分类效果。从而克服了分类方法领域依赖的困境(不同领域需要选择不同基分类方法才能获得更好的分类结果)。关键词:计算机应用;中文信息处理;情感分类;组合分类器中图分类号:T P391 文献标识码:A

Chinese Sentiment C lassification Based on Stacking Combination Method

LI Shoushan,HU A NG ChuRen

(T he H ong Ko ng Po ly technic U niver sity ,Department of Chinese &Biling ual Studies,H ong Ko ng ,China)Abstract:Sentiment based tex t catego rizatio n (for shor t,sentiment classificatio n)is a task of classify ing tex t acco rding to the subject ive infor mation in the text.N o wadays,it has been clo sely studied in the research field o f natura l lang uag e processing (NL P)due to its w ide r ea l applications.A s a result,many super vised machine learning classificatio n approaches hav e been applied to this task.In this paper ,w e r esear ch o n fo ur classificatio n appro aches and pr opose a new co mbination method based on stacking to co mbine these four appr oaches.Ex per imenta l results show t hat our combination method achiev es better perfor mances than the best sing le o ne.T her efor e,this

co mbinat ion method can avo id select ing a suitable classification appro ach accor ding to differ ent domains.Key words:co mputer application;natur al languag e pro cessing;

sentiment classificatio n;

multiple classifier

co mbinat ion

收稿日期:2009 08 27 定稿日期:2009 12 24

作者简介:李寿山(1980 ),男,博士后,研究方向为自然语言处理,模式识别;黄居仁(1958 ),男,讲座教授,研究方向为自然语言处理,语言学。

1 引言

目前,人们越来越习惯于在网络上表达自己的观点和情感。网络上出现了大量的带有情感信息的文本,这些情感文本以商品评论、论坛评论、博客等形式存在。面对这些越来越多表达情感信息的文本,传统的基于主题的文本分类系统已经不能满足人们的需求,迫切需要对这些情感文本进行研究和分析。情感文本分类即是在这种氛围下产生的一种特殊的文本分类任务,该任务按照表达的情感倾向性对文本进行分类

[1]

。例如,判断文本对某个事物的评论是 好!还是 坏!。该任务的研究历史虽然不

长,但是已经成为自然语言处理方向里面的一个研究热点。尤其是近几年在自然语言处理相关国际顶

级会议上(ACL 、EM NLP 、SIGIR 、WWW 等)涌现出了大量的文章。目前,该方向的研究主要不仅仅是在英文方面,中文情感文本分类的研究也得到了迅速的发展,例如,文献[2 4]。

针对情感分类任务,目前主流的方法是基于机器学习的分类方法,该方法利用统计机器学习分类方法学习标注样本,然后用学习好的分类器测试非标注样本。这种方法在性能上比其他的基于规则的方法有着明显的优势

[1]

。不过,机器学习方法中存

在多种不同的分类方法,选择合适的分类方法便成为情感分类研究中的一个重点问题。文献[4]首先采用机器学习方法进行英文文本(电影评论)的情感分类研究,文中给出三种不同的分类方法,分别为朴素贝叶斯(N aive Bay es,NB),最大熵(M ax imum Entropy,ME)和支持向量机(Support Vector Machines,SVM)。他们的研究结果发现大部分的情况下SVM取得的分类效果最好。后续的许多研究工作都是基于SVM的分类方法进行展开的,例如,文献[5 6]。对于中文文本的情感分类研究,文献[8]采用K 近邻(KNN),感知器Winnow,NB和SVM四种分类方法对来自不同领域的评论文本进行分类,实验结果发现SVM在所有领域都取得了最好的分类效果。文献[9]也有类似的结论,不过实验结果中SVM的分类效果没有非常大的优势,而且在利用不同的特征时,SVM的效果有时候会差于其他分类方法。然而,文献[10]给出了的结论与上面的文章不是很一致,该文发现如果利用二元(Big ram)词特征或者单字特征的时候,NB的分类效果是最好的。因此,我们可以认为SV M分类是情感文本分类任务中表现比较好的分类方法,但是该方法不可能在所有领域所有特征集合下取得最好的分类效果。

本文将采用四种不同的分类方法,即朴素贝叶斯,最大熵,支持向量机和随机梯度下降线性分类方法对中文情感文本分类进行研究。本文的重点不是比较这四种方法的分类表现。我们相信不同的领域或者不同的特征可能需要不一样的分类方法才能取得最好的分类效果。因此,我们的目标是应用组合分类方法组合这四种方法,考察组合后的方法能否获得比最好分类方法更好的分类效果。

本文的其余部分如下安排:第2节详细介绍各种分类方法在情感分类上面的应用;第3节给出基于Stacking的组合分类器方法;第4节是实验结果和分析;最后一节是本文的结论和将来的一些工作。

2 统计情感文本分类方法

2.1 朴素贝叶斯(Naive Bayes,NB)

该方法的基本思想是利用特征项和分类的联合概率来估计给定文档的分类概率[11]。朴素贝叶斯假设文本是基于词的Unigram模型,即文本中词的出现依赖于文本类别,但不依赖于其他词及文本的长度,也就是说,词与词之间是的。文档一般采用DF向量表示法,即文档向量的分量为一个布尔值:0表示相应的单词在该文档中未出现,1表示出现。则文档d属于类c文档的概率为:

P(c|d)=

P(c)∀t#V P(d(t)|c)

c

P(c)∀t#V P(d(t)|c)(1) 其中,

P(d(t)|c)=

1+N(d(t)|c)

2+|d c|

(2) 其中,P(d(t)|c)是对在c类文档中特征t出现的条件概率的拉普拉斯估计,N(d(t)|c)是c类文档中特征t出现的文档数,|d c|为c类文档所包含的文档的数目。对于情感文本分类,c#{-1,1},分别表示负面(贬)或者正面(褒)。

2.2 最大熵(Maximum Entropy,ME)

最大熵分类方法是基于最大熵信息理论,其基本思想是为所有已知的因素建立模型,而把所有未知的因素排除在外。也就是说,要找到一种概率分布,满足所有已知的事实,但是让未知的因素最随机化。相对于朴素贝叶斯方法,该方法最大的特点就是不需要满足特征与特征之间的条件。因此,该方法适合融合各种不一样的特征,而无需考虑它们之间的影响。

在最大熵模型下,预测条件概率P(c|d)的公式如下:

P(c|d)=1

Z(d)

ex p(∃i i,c F i,c(d,c))(3) 其中,Z(d)是归一化因子。F i,c是特征函数,定义为:

F i,c(d,c%)=

1,n i(d)>0 and c%=c

0o therw ise

(4) 在做情感分类的时候,我们用的特征主要是词特征是否出现在某个文档里并属于某个类别。

2.3 支持向量机(Support Vector Machines,SVM)

该方法主要是用于解决二元分类模式识别问题,它的基本思想是在向量空间中找到一个决策平面(Decisio n surface),这个平面能最好!地分割两个分类中的数据点[12]。支持向量机的核心思想就是要在训练集中找到具有最大类间界限的决策平面。

支持向量机方法中一个有趣的特性是决策平面

57中文信息学报2010年

只是那些刚好和决策平面距离为1/& w&的数据点

来决定,称为支持向量,删除其他数据点是不会影响

算法结果的(即产生的决策函数不变),这点是它与

其他分类方法的不同之处之一,令它可以一定程度

上面避免维数灾难!。因此,该方法比较适合那些

高维向量空间的分类问题。这一点正好满足情感文

本分类的需求。长期以来,该分类方法在情感文本

分类任务中扮演着非常重要的角色[5 7]。

2.4 随机梯度下降(Stochastic Gradient Descent,

SGD)

随机梯度下降是一种线性分类方法[13],即

f(d)=w T d。其中d是文档的向量表示。该分类

方法的训练目标就是求得最佳的参数w如下:

w^=arg m in

w∃X,Y L(w T d,c)+

2

&w&22(5)

其中,&w&22=w T w, 是一个非负的正规化因子。如果 =0,表明该问题是非正规问题。

顾名思义,随机梯度下降分类方法是利用随机梯度下降解决公式(5)中表达的优化问题,从而得到SGD的在线更新策略如下[13]:

w^t=w^t-1- t S-1( w^t-1+L%1(w^T t-1d t,c t),d t)

(6) 其中L%1(p,y)=p L(p,y),(d t,c t)表示样本在第t步的分类结果c t。矩阵S可以认为是一个先决调节器(Pre conditioner)。简单起见,该矩阵设置为一个常数矩阵。 t>0是学习速率调节参数。该分类算法的流程如下[13]:

初始化 w^0

for t=1,2,...

从样本集合里面随机抽取样本(d t,c t);

更新w^t-1如下:

w^t=w^t-1- t S-1( w^t-1+L%1(w^T t-1d t,c t),d t);

end

该分类方法适用于高维大规模的分类问题[13]。文献[14]将该算法应用于英文的情感文本分类任务中,取得了同SVM类似的分类效果。

3 组合分类方法

组合分类方法是融合多个分类器的结果从而得到一个新的融合结果,这个融合结果将取代各个基分类器的结果作为最终的分类决定[15]。组合分类器方法是模式识别以及机器学习理论研究领域里面的一个重要的研究方向。

3.1 产生基分类器

构建一个多分类器系统,首先需要产生多个基分类器用以组合。产生基分类器的方式大致有三种。第一种方式是通过训练不同的语料库产生不同的分类器;第二种方式是通过训练不同的特征集产生多个基于不同特征集的分类器。例如:在生物认证问题中,作为认证的特征可以是人脸、声音、虹膜等。这些特征中的任一特征都可以训练单个分类器,这样,一个生物认证系统可能包括多种生物特征的分类器。第三种方式是通过不同的学习方法获得不一样的分类器。很多分类方法是基于不同的机理的,如K 近邻(KNN)方法是基于记忆的方法,支持向量机方法(SVM)是基于结构风险最小理论的方法等等。因此,不同的分类方法实现的分类器实现分类的效果往往是不一样的。一种可行的方式就是将多个分类方法实现的分类器组合起来。

3.2 融合算法

获得了基分类器的分类结果后,组合分类器方法需要特别的融合方法去融合这些结果。融合方法本身就是多分类系统!研究领域的一个基本问题之一[15]。融合方法可以分为两种,固定的融合方法(Fix ed Rules)和可训练的融合方法(Trained Rules)。前者的优势在于它们不需要额外的训练语料进行训练。这种方法简单,易实现,如简单的投票规则(Vo ting Rule)和乘法规则[15]。可训练的融合方法的优势在于在足够的训练语料下,它们能够获得更好的分类效果。

假设有R个参加组合的分类器f k(k=1,∋, R),这些分类器给样本x的分类结果为L k(L k= c1,∋,c m)。另外,他们提供出了属于每个类别的概率信息:P k=[p(c1|d k),∋,p(c m|d k)]t,其中p(c i|d k)表示样本d k属于类别c i的概率。如果样本d k属于类别c j,在不同的融合算法中需要满足不一样的条件。下面是一种常见的固定融合算法:乘法规则的条件[15]:

乘法规则:

assign y(c j

j=ar g m ax

i

p(c i)∀R k=1p(c i|d k)(7) 目前比较主流的一种可训练的融合方法叫做元学习的方法(Meta learning)。元学习的融合方法是

58

5期李寿山等:基于Stacking 组合分类方法的中文情感分类研究

指,将基分类器输出的分类结果作为中间特征[16](又叫元特征),即:

P meta =[P 1,P 2,∋,P k ,∋,P m ](8)

然后把这些特征向量作为输入再一次学习一个分类器,该第二层的分类器叫元分类器。3.3 基于Stacking 的组合分类器方法

基于Stacking 的组合分类器方法是目前比较主流的组合分类器方法[17]。该方法产生基分类器的方式即是上面提到的第三种方式。利用上面提到的四种分类方法,即NB,M E,SVM 和SGD,训练得到四个基分类器。然后,使用的融合算法是可训练的元学习方法。特殊的是中间样本(元学习样本)是通过对训练样本的N fo ld 交叉验证(Cross validatio n)获得的。另外,针对元分类器的分类方法也可以有很多种选择,在后面的实验中,我们分别选取SVM 和M E 做相关实验。基于Stacking 的组合分类器方法的系统框架结构如图1

所示。

图1 基于stacking 的组合分类器系统的框架结构

具体来说,假设x %表示开发集中某一个样本的文本向量,其中开发集是指N fo ld 交叉验证过程中被当作测试集(包括1fold 样本)的那部分样本。第l 个基分类器(由其他N -1个fo ld 的样本训练得到)f l 在该样本上面的分类结果!P (x %l )为属于两个类别{c 1,c 2}的后验概率,即,

!P (x %l )=

(9)

所有基分类器的分类结果组合构成元分类器的

输入向量x

meta

#R

2)l

x m eta

=(10) 交叉验证使得获得的元学习向量数目同整个训练样本里面的样本数目是一样的。由于元分类器的向量维度非常小(为2)l ),该分类器的训练和测试

速度非常快。因此,元学习过程对系统的时间复杂度影响不大。

4 实验设计及分析

本实验中,我们使用了谭松波博士收集的一个的中文情感文本分类语料库∗,该语料库的来源是旅馆预订领域,我们选取了2000个样本。为了确保实验分析更加可靠,我们在卓越网站+上面另外收集了来自三个领域的中文评论语料。这三个领域分别是书籍﹑DVD 和运动产品。实验中的情感文本分类的任务是将评论分为正面和负面,每个领域大概有1600个样本。实验过程中,我们选择80%的样本作为训练样本,剩余的20%样本作为测试样本。上面提到的四种分类方法中,SVM 是使用标准工具lig ht SVM ,,NB 和M E 使用的是M ALLET 机器学习工具包−。在使用这些工具的时候,所有的参数都设置为它们的默认值,例如SVM 使用的是线性核函数。SGD 方法是由我们自主实现的(参考文献[13])。在实现过程中,我们采用的学习速率为 t =0.002,损失函数L (x ,y )为H uber 损失函数[18]。在实现基于Stacking 的组合分类方法时,我们在训练样本中进行了5 fold 交叉验证来得到元学习样本。然后分别使用SVM 和M E 作为元分类器的分类算法。为了便于比较,我们同样给出了一种固定方式的融合算法 乘法规则的融合结果。

我们采取了分类正确率来评价分类的效果,其定义如下:

A cc =

number of corr ectly classif ied samp les

total number of all samp les

(11)

在进行分类之前,首先我们采用中国科学院计算技术研究所的分词软件ICT CLAS 对中文文本进行分词操作。给定分好词的文本后,我们分别选取词的U nig ram 和Unigram+Big ram 作为特征,用以获得文本向量的表示。

表1和表2给出了四个基于不同分类算法的基分类器在四个领域里面的分类结果。表1和表2的结果分别是利用词的U nigr am 和Unigram+Bigram

59

∗+,−

http://w ww.s earchforum.org.cn /tans on gbo/http://w ww.amazon.cn/http://svmlig ht.joach ims.org/http://mallet.cs.umass.edu/

表1 基分类器在各个领域上面的分类结果

(利用词的Unigram特征)

领域SG D M E N B SV M

书籍0.7690.7850.7850.762

DV D0.7520.7590.7400.765

运动0.8580.8490.8580.861

旅馆0.8600.8500.8530.855

表2 基分类器在各个领域上面的分类结果

(利用词的Unigram+Bigram特征)

领域SG D M E N B SV M

书籍0.7750.7940.8010.798

DV D0.7620.7680.7740.737

运动0.8700.80.8760.867

旅馆0.8750.8820.10.878

作为特征得到的。从表1的结果可以看出,在使用

Unigram的时候,没有一种分类算法是有绝对优势

的。SVM的表现相对来说比较好,它在两个领域中

取得了最好的分类效果。然而,从表2的结果可以

看出,NB分类方法取得了一致最好的效果。这一

点同文献[10]的结论一致。比较表1和表2的结

果,我们可以发现,引入词的Bigram对分类的性能

提高有明显的帮助。总体来说,该实验结果同我们

表3 不同融合算法在各个领域里面的表现

(利用词的Unigram特征)

领域基分类器

最好结果

乘法规则

Stacking

(SVM)

St acking

(M E)

书籍0.7850.7880.8110.808 DV D0.7650.7780.7810.778运动0.8610.8700.8680.877旅馆0.8600.8800.8730.878

表4 不同融合算法的识别结果比较

(利用词的Unigram+Bigram特征)

领域基分类器

最好结果

乘法规则

Stacking

(SVM)

St acking

(M E)

书籍0.8010.8050.7980.811 DV D0.7740.7680.7840.787运动0.8760.8740.8800.886旅馆0.10.40.9000.900的观点一致,就是说不同的领域,不同的特征集合需要的最优分类算法往往也不一样。

表3和表4给出了组合分类方法在四个领域里面的分类结果。表1和表2的结果分别是利用词的U nig ram和Unigram+Bigram作为特征得到的。为了便于比较Stacking组合方法和其他方法,我们还给出了基分类器中获得的最好分类结果和乘法规则融合算法的结果。从表3和表4的结果可以看出,乘法融合算法基本能够保证组合后的结果接近或者超过最好基分类器的结果(在DVD领域使用U nig ram+Bigr am特征时有0.6%的性能损失)。然而,基于Stacking的组合方法能够很好地提高分类效果,比最好的基分类器的性能都有所提高。这一点对实际应用非常重要,因为我们可以不必去面对每个领域选择合适的分类算法,而是利用组合的方法去组合不同的分类方法。这样组合的结果还可以超过最好的基分类器的结果。一般情况下,M E 分类方法作为元学习的时候,组合分类的结果表现比较稳定。

组合分类方法比最佳分类方法结果平均提高了一个百分点左右,虽然这样的提高并不算非常显著,但是在实际应用中,几乎不可能有一种分类方法能够在不同的领域或者不同的特征集上都能取得最佳的效果(例如表1中显示,M E方法在书籍领域取得最佳效果而在旅馆领域,SGD方法表现最好)。更重要的是,最差的分类方法比组合分类方法相差的正确率都超过了两个百分点,尤其在书籍领域,组合分类方法(0.811)比最差的分类方法(0.775)提高了3.6%。因此,我们认为,为了保证系统分类效果达到最佳表现,组合分类方法是值得使用的。但是由于组合系统需要进行多个分类器的分类,系统在于测试阶段的时间复杂度要比使用单一分类方法要高。不过这种时间复杂度方面的提高是相对于分类器数目线性变化的,在实际应用中是可以接受的。

5 结论

在情感文本分类任务中,选择合适的分类方法直接影响系统的分类性能。为了避免不同的领域选择不同合适的分类方法,本文提出利用基于Stacking的组合分类方法组合四种不同性质的分类方法,分别为NB﹑M E﹑SVM和SGD。在实验中,我们利用四个不同领域的中文情感文本分类语料测试了该组合分类方法。实验结果表明该方法能

605期李寿山等:基于Stacking组合分类方法的中文情感分类研究

够获得比固定融合算法(乘法规则)更好的分类结果,而且能够获得比基分类器最好结果更佳的分类效果。

在下一步的研究工作中,我们将参考这些研究比较成熟的结果,利用情感文本更丰富的特征信息产生多样的分类器及如何实现动态的分类器选择方法等问题。例如,不同词性的特征对于整篇文章的情感分类的贡献不一样,我们可以组合不同词性特征产生的分类器,考察组合后的分类效果。另外,我们将重点分析情感(Sentiment)文本中感情(Emotion)表达的份额,并利用已有的感情分类语料构建一个于领域的情感分类器,用以融合到我们的系统中。

参考文献

[1] B.Pang,L.L ee,and S.V aithy anathan.T humbs up?

Sent iment classificatio n using machine lea rning

techniques[C]//P ro ceedings of the Conference on

Empirical M ethods in N atural L anguage P rocessing

(EM NL P 02).2002.

[2] 徐军,丁宇新,王晓龙.使用机器学习方法进行新闻

的情感自动分类[J].中文信息学报,2007,21(6):95

100.

[3] 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于

H ow Net的词汇语义倾向计算[J].中文信息学报,

2006,20(1):14 20.

[4] 徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向

性识别机制[J].中文信息学报,2007,21(1):96 100.

[5] B.Pang and L.L ee.A sentimental education:

Sent iment analysis using subjectivit y summar ization

based on minimum cuts[C]//P ro ceedings o f the42nd M eeting of the A ssociation for Co mputational L inguistics(ACL 04).2004.

[6] E.Riloff,S.Patw ardhan,and J.Wiebe.Feature

subsumption for opinio n analysis[C]//Pr oceeding s of

the Conference on Empirical M ethods in Natur al L ang uage P rocessing(EM NL P 06).2006.

[7] H.Cui,V.M ittal,and M.Datar.Comparat ive

ex per iment s on sentiment classificatio n for online

pro duct rev iews[C]//Pr oceeding s of A A AI 06,t he

21st N ational Co nfer ence on A rtificial Intellig ence.

2006.

[8] 唐慧丰,谭松波,程学旗.基于监督学习的中文情感分

类技术比较研究[J].中文信息学报,2007,21(6):88

94.

[9] S.T an and J.Zhang.A n empir ical study o f sentiment

analysis for Chinese do cuments[J].Ex per t Systems

wit h A pplicatio ns.2008,34(4):2622 2629.

[10] J.L i and M.Sun.Ex perimental study on sentiment

classification of Chinese rev iew using machine

lear ning t echniques[C]//Pr ocessing of Internatio nal

Conference on N atural L ang uag e P rocessing and

K no wledg e Eng ineering,(NL P K E 07),2007. [11] M.Sahami.L earning limited dependence Bayesian

classifier s[C]//Pro ceeding s of A CM SIG KD D

Internatio nal Conference on Know ledg e Disco very and

Data M ining(K DD 96),1996:335 338.

[12] V.V apnik.T he Nat ur e of Statist ical L earning

T heor y[M].Spr inger,Berlin,2005.

[13] T.Z hang.Solving larg e scale linear pr ediction

pro blems using sto chastic g radient descent alg or ithms

[C]//P ro ceedings of Internatio nal Co nfer ence on

M achine Lear ning(ICM L 04).2004.

[14] J.Blit zer,M.Dredze,and F.P ereir a.Bio gr aphies,

Bo llyw oo d,Boo m bo xes and Blender s:Do main

adaptation fo r sentiment classification[C]//

P roceeding s o f A nnual M eeting on A ssociation for

Computat ional L ing uist ics(A CL 07).2007.

[15] J.K ittler,M.H atef,R.P.W.Duin,and J.M atas.

On combining classifier s[J].IEEE T ransactions on

Pat tern Analysis and M achine Intellig ence,1998,20:

226 239.

[16] R.V ilalta and Y.Drissi.A per spectiv e v iew and

survey of meta learning[J].A rtificial Intelligence

Rev iew,2002,18(2):77 95.

[17] Saso Dzeroski and Bernar d Zenko:Is combining

classifier s with stacking better than selecting the best

one?[J].M achine L earning.2004,54(3):255 273.

[18] Rie A ndo and T ong Zhang.A framew or k for learning

predictive st ruct ur es fr om multiple tasks and

unlabeled data[J].Journal of M achine L earning

Research,2005,6:1817 1853.

61

文档

基于Stacking组合分类方法的中文情感分类研究

第24卷第5期2010年9月中文信息学报JOURNALOFCHINESEINFORMATIONPROCESSINGVol.24,No.5Sep.,2010文章编号:10030077(2010)05005606基于Stacking组合分类方法的中文情感分类研究李寿山,黄居仁(理工大学中文及双语学系,中国)摘要:情感文本分类(简称情感分类)是一种面向主观信息分类的文本分类任务。目前,由于其广泛的应用前景,该任务在自然语言处理研究领域中得到了普遍关注,相继出现多种用于情感文本分类的有监督的分
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top