您好,欢迎来到微智科技网。
搜索
您的当前位置:首页基于深度卷积神经网络模型的文本情感分类

基于深度卷积神经网络模型的文本情感分类

来源:微智科技网
第45卷第$期 Vol.45 No. 3

计算机工程

Computer Engineering

文章编号:1000#428(2019)0$-0$00-09

文献标志码

2019年3月 March 2019

:A

中图分类号:TP183

开发研究与工程应用•

基于深度卷积神经网络模型的文本情感分类

周锦峰,叶施仁,王晖

(常州大学信息科学与工程学院,江苏常州2131)

摘要:为高效提取不同卷积层窗口的文本局部语义特征,提出一种深度卷积神经网络(CNN)模型。通过堆叠多

个卷积层,提取不同窗口的局部语义特征。基于全局最大池化层构建分类模块,对每个窗口的局部语义特征计算 情感类别得分,综合类别得分完成情感分类标注。实验结果表明,与现有CNN模型相比,该模型具有较快的文本 情感分类速度。关键词:情感分析;情感分类标注;深度学习;卷积神经网络;词向量

中文引用格式:周锦峰,叶施仁,王晖.基于深度卷积神经网络模型的文本情感分类[J].计算机工程,2019,45(3):300-308. 英文引用格式:ZHOU Jinfeng,YE Shiren,WANG Hui. Text sentiment classification based on deep convolutional neural network model* J]. Computer Engineering,2019,45 (3 ) :300-308.

Text Sentiment Classification Based on Deep Convolutional Neural Network Model

ZHOU Jinfeng,YE Shiren,WANG Hui

(School of Information Science and Engineering,Changzhou Universit;^,Changzhou,Jiangsu 2131,China)

[Abstract] This paper proposes adeep Convolutional Neural Network ( CNN) model to efficiently extract semantic features of different convolutional layer windows for text. The model avoids manually specifying multiple window sizes and retains local semantic features of different windows by stacking anumber of convolutional lClassification modules are built based on the Global Max Pooling (GMP) layer to calculate the category score flocal semantic features of each window. The model synthesizes these category scores to complete the sentimentclassification annotation. Experimental results show that the model has faster text sentiment classificatof other CNN models.[Keywords] sentiment analysis; sentiment classification annotation; deep learning; Convolutional Neural Network (CNN) ; word vectorDOI:10. 19678/j. issn. 1000-3428.0050043〇概述

情感分析主要通过人类书写的文本分析和研究 人的意见、情感、评价、态度和情绪,是自然语言处理 (Natural Language Processing,NLP)中最热门的研究 领域之一,并在数据挖掘、Web挖掘和文本挖掘等应 用范畴得到广泛研究[16]。例如,分析电商平台上对 已购商品的点评,群众对新颁布的法规的 讨论以及消费者对新产品或服务的反馈等。每天数 以亿计的用户文本信息包含了丰富的用户观点和情 感极性,从中可以挖掘和分析出大量的知识和模式。

深度学习为经典数据挖掘任务提供了新的手 段。卷积神经网络(Convolutional Neural Network, CNN)是一种用于处理具有网状拓扑结构数据的深

度神经网络(Deep Neural Network,DN

N)。CNN 通

过卷积操作,组合低层特征形成更加抽象的高层特 征,使模型能够针对目标问题,自动学习特征。在文 本情感分类应用中,CNN能够有效避免传统机器学 习方法所面临的样本特征表达稀疏、计算复杂等问题[4]。

目前,以CNN为基础的文本情感分类方法多数 是通过学习文本的一种窗口或多种窗口局部语义信 息,然后提取文本最大语义特征进行情感划分。此 类方法在文本情感分类标注领域已取得较好的效 果。但是目前在文本情感分类标注领域[56],甚至在 NLP的其他分类问题中[860],使用的CNN模型多数 采用一个或多个卷积层并行的结构。CNN模型解 决情感分类标注问题时,为了充分捕捉语义的距离

基金项目:国家自然科学基金(61272367);江苏省科技厅项目(BY2015027-12)。

作者简介:周锦峰(1978—),男,硕士,主研方向为机器学习、自然语言处理;叶施仁,副教授、博士;王收稿日期:2018-01-10

修回日期:2018-02-27

(通信作者),讲师、博士。

E-mail:zhouzhou9076@ 163. com

第45卷第3期

周锦峰,叶施仁,王晖:基于深度卷积神经网络模型的文本情感分类

301

依赖[11],需要提取不同上下文窗口的局部语义信

息,增强情感分类能力。但是,卷积层并行的CNN 模型使用超参数设定有限种窗口大小,而且随着窗 口增加,模型计算量会大幅增加,训练效率和预测速 度也随之降低。

为提高模型计算效率,本文提出一种应用于全 局最大池化(Global Max Pooling,GMP)层的深度卷 积神经网络(GMP-CNN)模型,进行文本情感分类标 注。堆叠的卷积层能够逐层深入地提取窗口更大、 抽象度更高的局部语义特征。由特殊的卷积层和 GMP层构成的分类模块为不同窗口的局部语义特 征计算情感类别得分,得到文本情感分类标注,并采 用斯坦福情感树库(Stanford Sentiment Treebank, SSTb)数据集以验证GMP-CNN模型情感分类标注 的有效性。1

相关工作

文献[3]采用朴素贝叶斯模型、最大熵模型和支 持向量机模型对文本进行情感分类。此后,以传统 机器学习为核心的情感分析模型层出不穷。为提高 分类正确率,传统机器学习方法使用大量文本特征。 随着特征变多,训练样本在每个特征上的描述会变 得稀疏,机器学习的计算复杂性成倍增加。由于文 本特征需要人工构造,因此特征越多,人工成本 越大。

文献[12]提出分布式表示词向量的概念,从大 量未标注的语料库中无监督地学习词向量,通过向 量空间上的相似度表示文本语义上的相似度。由词 向量序列构成文本的原始表示形式将文本内容的处 理简化为?维向量空间中的向量运算。分布式表示 词向量的出现有效解决了 PNN输入部分对人工的 依赖,并推动PNN发展出新模型用于文本情感 分类。

文献[13 ]将CNN应用在文本分类任务,并通过 实验证明基于CNN的文本分类模型能够获得比传 统机器学习模型更高的正确率。文本情感分类标注 任务也属于文本分类任务,因此,作者使用CNN模 型完成情感分类标注任务。文献[5]基于单词的构 造(以构成单词的字母为单位),提出CharSCNN模 型。以CNN为基础的CharSCNN模型,采用2个并 行的卷积层分别学习单词的构造特征和句子的局部 语义特征,充分体现CNN对文本局部特征的抽象和 提取能力。该模型在短文本情感分类时展示了较好 效果,有效论证CNN模型在进行句子情感分类标注 时的可行性。文献[6]在CharSCNN模型基础上,并 行多个卷积层,学习多种窗口的文本局部特征。对 于中文语料,该模型有效地完成情感二分类标注任

务。文献[7]使用 Word2Vec、GloVe 和 FastText 多

种词向量形成CNN模型的多通道输入,同时使用 avg池化方法代替max池化方法,对于英文和韩文 影评语料,均取得较好的标注正确率。目前,多数用 于情感分类标注任务的CNN模型,在基础结构上类 似于文献[13 ]提出的CNN模型,具有以下特点:

1) 与计算机视觉领域应用的深度CNN不同,一 般使用多种卷积层的并行结构,或者只有一个卷 积层。

2) CNN卷积核的大小需要与词向量维度匹配, 这使得卷积核至少在一个维度上比较大。3) 通常使用全连接层作为分类器,将卷积层学 习到的语义特征表示映射到样本标记空间。

尽管上述CNN模型在处理情感分类标注时,特 别是情感二分类标注任务,应用效果良好,但是此类 模型存在2个问题:1)受并行结构的,多提取一 种窗口类型的局部语义特征需要增加一种并行的卷 积层,模型在训练和预测过程中的计算量会大幅增 加;2)作为分类器的全连接层参数量过大,特别是以 多种窗口的局部语义特征向量作为输入的全连接 层,使模型的训练和预测计算量增大,降低了模型速 度,还会造成过拟合。针对以上问题,本文提出 GMP-CNN模型对文本进行情感分类标注。2

GMP-CNN

模型

如图1所示,经典的CNN模型解决情感分类标 注问题时,通常采用多个池化层并行的结构。将一 个句子或一段文本以某种形式(例如词向量序列)输 入到并行结构CNN模型(parallel-CNN)的多个并行 卷积层。经过卷积操作,提取文本的局部抽象语 义[13]。最大池化层对该局部语义表示进行降维,同 时保留某一个级别的语义特征,通常保留最大语义 特征。串接层将这些语义特征向量拼接成一个文本 特征向量。全连接层对该特征向量进行进一步抽 象,计算出情感分析结果。

图1情感分类标注中并行结构的CNN模型

302

计算机工程

2019年3月15日

文献[14]指出多个小核卷积层堆叠产生一个大 核卷积层的感知野,受此启发,本文提出GMP-CNN 模型用于文本情感分类标注。如图2所示,GMP- CNN模型通过堆叠多个卷积层,可逐层提取窗口越 来越大、抽象度越来越高的文本局部语义特征用于 情感多分类标注。在GMP-CNN模型中,将卷积层 产生的局部语义特征矩阵输入下一个卷积层以及分 类模块。在分类模块中,为不同窗口的局部语义特 征分别计算情感类别得分。GMP-CNN模型在点积 层综合各分类模块产生的情感类别得分,得到最终 的文本情感分类标注。

个个个一个

______softmax 层_______点积层

__________分类模块I全局最大池化i~|

卷积层

卷积层

分类模块

全局最大池化层

1

卷积层

1

卷积层

I

文本词向量序列1

图2

GMP-CNN模型

2.1输入层

词向量是词的分布式表示,将词表示为一个稠

密低维度的向量,包含一个词的语法和语义信息。 给定由2个单词组成的一个文本样本0 L&1,L&2,…, L&J,转换每个单词为其对应的,&维词向量。设 该样本中第1个单词对应的词向量为6,6 \"

鲈胃\"。该样本可以初始地表示成一个维度为 的文本表示矩阵^ = [A,x2,…,x,7 ]。该初始表示矩

阵作为GMP-CNN模型中第1个卷积层的输入。2.2深度卷积结构

CNN模型通常使用不同的窗口对文本的词向 量序列进行卷积操作,提取局部语义特征。目前, 多数CNN模型以超参数方式设定单窗口大小[5]或 多窗口大小[6’13]。通常指定的卷积窗口越多,可以 提取窗口种类越多的局部语义特征,有助于完成情 感分类标注任务。但由于超参数优化、网络规模和 计算性能的,预先能够指定的窗口种类有限。

基于文献[14]的思想,GMP-CNN模型可以堆 叠多个卷积层形成深度CNN模型。设模型有%层 卷积层,相比第+层卷积层,第+ + 1层卷积层在第+层 卷积层提取的局部语义特征基础上,能提取窗口更 大和抽象级别更高的语义特征。由于+\"[1,%],因

此如果%值足够大(即堆叠层数足够多),则上下文 窗口可以覆盖数据集中最长的文本长度,相当于需 要用一个大核的卷积层来捕捉语义的远距离依赖特 征。因此,使用小卷积核的卷积层堆叠产生一个大 核的卷积层效果,而且多个非线性操作代替一个单 一的非线性(或线性)操作能使决策函数更具判别能 力[14]。GMP-CNN模型能产生大窗口的局部语义特 征,同时产生多种较小窗口的局部语义特征,这些局 部语义特征分别送至对应的分类模块进行分类计 算。在超参数设定和调优方面,只需为整个模型设 定第1个卷积层的窗口大小L。2.2.1

same卷积层

GMP-CNN模型中,每个卷积层均执行窗口

大小为l的sme

卷积操作。当卷积层输出通道数

量与词向量维度相同时,same卷积操作可以确保每 一层卷积层的输入矩阵与输出矩阵为同型矩阵,方

便深度堆叠卷积层。

设第+层sme卷积层有输入矩阵--[0,1,

是第&-1层

same卷积层的输出,模型中第1层的

same卷积层输入矩阵—-4。

same卷积操作/

00

P\\PiPn

00

x-----1-----7

输入向量

^------1-----xw-2个0向量

w-2个0向量

图3基于same卷积操作的卷积层

在进行same卷积计算时,首先在—左右两端分 别填充L -2个0向量,形成矩阵D+。

S

+ 二[\",…,0,1,0,2,…,0,2,…,\"]

其中,0向量维度为iT'

e

一虻<[\"+2^-2)]。对

A

进行卷积操作,然后通过激活函数tanh,计算得到

第+层卷积层的局部语义特征矩阵)-[^,^,…,^,丄其中^一^^即基于窗口大

第45卷第3期

周锦峰,叶施仁,王晖:基于深度卷积神经网络模型的文本情感分类

303

小为(+ -1 )( L -1 $ 2 L的局部语义特征矩阵。

在进行same卷积层堆叠时,相邻same卷积层 相互衔接,并没有加入池化层。这是因为池化层是 降采样,虽然保留某种显著特征,但也会过早地丢弃

其他特征信息。为使后继@me卷积层在前层的基 础上有效提取局部语义特征,GMP-CNN

模型中相

same卷积层之间没有增加任何形式的池化层。

2.2.2分类模块

受到Anytime-Prediction思想*15]和全局平均池 化(Global Average Pooling,GAP )层[16]的启发,本文设计分类模块代替全连接层的功能,如图4 所示。

vk

£

I

s

00

ck

00

图4分类模块

GMP-CNN模型的分类模块包含2

个层:输出通

道数量与情感类别数量相同的卷积层和GMP

层。

将每层@me卷积层的输出矩阵送入分类模块的卷 积层中,为每个类别生成一个类别特征矩阵,然后

GMP对类别特征矩阵应用全局最大池化操作,产生

一个类别得分向量。分类模块具体操作如下:

1) 卷积层。第+层的局部语义特征矩阵)输入 第+个分类模块的卷积层中,产生类别特征矩阵>+,

e m mx\",其中I TI是情感分类数量。该卷积层采

用same卷积操作,输出通道与情感分类数量相同。

计算过程与same卷积计算过程类似。

2)

全局最大池化层。将第+个分类模块的卷积

层生成类别特征向量>+输入全局最大池化模块后, 对>+按类别求最大值,即求各行的最大值,产生类别 得分向量h

,vIR

m,具体操作如下:

I

. -maX(FM,:) (2)其中,V +表示基于窗口为(+-1)(L-1) 2L的局部 语义特征,得到第〖类得分,

I

.为基础,形

成E - * V+1,v+ 2,…,V+G ]。然后以E为基础,形成 文本类别得分矩阵@ - [E

X

,…,E],其中

对于传统CNN模型,由于全连接层像黑盒一样 存在于卷积层和代价函数之间,因此对于分类信息

如何回传至卷积层的解释非常困难。GMP层加强 了卷积层和代价函数之间的关联,在理论上具有可 解释性*16]。

2.$点积层与输出层

本文模型综合考虑基于各局部语义特征的类 别得分,计算出文本情感分类得分。由于各种局 部语义特征的窗口大小和抽象级别不同,因此不 同类别得分对文本情感分类贡献不同。点积层对文本类别得分矩阵V按列进行加权求和计算,得 到文本的情感分类得分向量

过程如下:

-%2:1-01 ( 7* @) .1’ (3)其中,表示文本对第^类的得分,以为基础形成scr =

,%r2,…,^厂丨r丨],W e M卜卜是贡献权

重矩阵。

输出层对ig应用softmax函数将句子的情感分 类得分转换为情感分类条件概率分布。句子对情感 分类f的条件概率分布计算如下:

8(.4,&) -e

^/.^e

& (4)

3 GMP-CNN模型训练

GMP-CNN模型是通过最小化负对数似然函数

进行训练。对式(4)取对数:

In 8( . 4

,&) -

- ln( $1- 1

e/r’) (5 )

采用随机梯度下降(Stochastic Gradient Descent,

SGD)算法最小化负对数似然函数,得到:J

(&二 (<$ )-#8(Kl4;&)

(6)

其中,<代表训练语料,4、k表示训练语料的句子 及其对应的情感标签,&表示模型所有参数。

过拟合是由训练数据集采样噪声产生,并不是

真实地存在于测试数据集*17],会降低模型的泛化能

力。此外,SSTb数据集中长句训练集的样本数量较 少,在进行CNN模型训练时,过拟合现象较容易发 生。在训练过程中,GMP-CNN模型在输入层使用

Dropout技术*17],并且模型中各全局池化层对整个

网络在结构上做正则化处理*16],因此,本文模型可 有效防止过拟合,明显降低泛化误差。

304计算机工程2019年3月15日

4

实验结果与分析

4.1情感分析数据集

SSTb数据集的语料内容来源于在线影评,属于 网络短文本[18]。SSTb不仅有显式的情感实证概 率,而且影评相较其他正式类型的文本具有更加主 观的表达,因此选用SSTb论证GMP-CNN模型。

SSTb包含11 845个句子和227 385个短语,其中短

语由句子的语法解析树产生,本文实验只使用句子 作为样本数据。数据集有句子和短语的情感实证概 率。根据分类标准界限[0. 0,0. 2]、(0.2,0.4]、 (0.4,0. 6]、(0. 6,0. 8]、(0.8,1.0],情感实证概率 可映射到五分类中,即表达非常负面、负面、中性、正 面、非常正面的情感。在忽略中性类后,分类标准界 限为[0,0.4]、[0.6,1.0],将情感实证概率映射到 二分类中,即负面和正面情感。

本文按上述标准分别为二分类和五分类划分出 2套实验数据集。无论在二分类还是五分类实验数 据集中,均只包含句子,不包含短语。由于二分类过 滤了中性类样本,因此过滤约20%的样本,SSTb数 据集划分结果见表1。

表1

SSTb数据集划分结果

数据集二分类五分类

训练集6 9208 544验证集8721 101测试集

1 821

2 210

4.2模型超参数设定

若窗口每次处理范围包含一个词及其上下文,

则窗口大小值最小为3[ 14],因此GMP-CNN模型中 卷积层窗口大小l设定为3。考虑到模型中每个卷 积层的输出通道数量与词向量维度相同,不宜过 低,因此设定为100。在GMP-CNN模型的输人层执 行Dropout操作,参照文献[17]中的设置,以8. =0.5的 概率随机保留输人单元。I < I为每个训练批次包含 的样本数,预先设定|<| \" {16,32,,128},SGD学 习率&为0. 001,通过验证集确定1<1为32。所有超 参数设定值见表2。

表2

GMP-CNN超参数设定

参数

参数说明参数值

卷积层窗口大小

3dWr&词向量维度

1008

m

Dropout保留概率

0.5IDI

每个批次包含的样本数

32&

学习率

0. 001

为验证GMP-CNN模型的有效性,本文对一系 列

parallel-CNN模型进行实验。除卷积层窗口大

小之外,其他参数与表2中的设置相同,另外

parallel-CNN在全连接层的输人也执行Dropout操

作,随机保留输人单元概率为8.。parallel-CNN的 卷积层窗口大小设置为相同卷积层数量时GMP-

CNN

模型的等效窗口大小。

4.3词向量预训练

实验选择GloVe算法[19]进行词向量预训练。

由于Twitter与

SSTb同属社交网络文本,Twitter语

料库的词语空间分布接近于SSTb的词语空间分布, 因此本文使用Twitter语料库进行词向量预训练。 在训练词向量后,得到一个包括一百多万条目的单

词表。对于SSTb中未出现在单词表中的单词,使用 在区间(-0.01,0. 01)中的均匀分布随机数进行初 始化[20]。

4.4 GMP-CNN模型结构设置

为实现实验结果的有效对比和论证,在训练过 程中对GMP-CNN模型的卷积层层数和词向量做不 同设定,见表3。

表3实验模型结构设定

模型

说明

GMP-CNN-3-nostatic堆叠3个卷积层,词向量可训练GMP-CNN-3 -static堆叠3个卷积层,词向量不可训练GMP-CNN-5-nostatic堆叠5个卷积层,词向量可训练GMP-CNN-5-static堆叠5个卷积层,词向量不可训练GMP-CNN-7-nostatic堆叠7个卷积层,词向量可训练GMP-CNN-9-nostatic堆叠9个卷积层,词向量可训练GMP-CNN-11-nostatic堆叠11个卷积层,词向量可训练parallel-CNN-3卷积窗口 03,5,7丨,词向量可训练parallel-CNN-5卷积窗口 03,5,7,9,11丨,词向量可训练parallel-CNN-7卷积窗口 0 3,5,7,9,11,13,15 |,词向量可训练parallel-CNN-9

卷积窗口 03,5,7,9,11,13,15,17,19},词向量

可训练

4.5结果分析

实验选用Intel 15-200的

CPU,8 GB

内存,

256 GB的SSD硬盘,Linux操作系统,未使用GPU。

实验开发和运行的操作系统环境是ubuntu 16. 04,在

Anaconda集成环境中使用python3.5

语言编写实验

代码。实验模型的构建、训练和预测功能模块都是 基于深度学习开源软件库TensorFlow r1.2。

CharSCNN模型[5]是CNN

应用在情感分类标

注问题的经典模型,采用2个相同大小窗口的并行 卷积层分别提取单词的构造特征和句子的局部语义

特征,并在SSTb数据集上验证了该模型的有效性。 因此,为验证实验正确率及说明多窗口局部语义特

第45卷第3期

周锦峰,叶施仁,王晖:基于深度卷积神经网络模型的文本情感分类

parallel-CNN。假设GMP-CNN

305

征的重要性,本文还将给出CharSCNN模型在SSTb 数据集上的实验结果。

4.5.1 GMP-CNN训练与预测效率分析

从图5、图6可以看出,无论是情感二分类标注 还是五分类标注,随着卷积层增加,GMP-C练时间和预测时间是近似线性增长,而

NN

卷积层窗口为3,词

向量维度为100,卷积层的输出通道数量为100,文

本长度为20。在堆叠5层后,GMP-CNN取得03,5, 7,(,111窗口的局部语义特征,这5层卷积层共需进 行 5 x[(3 $100$ $20] $100 - 3 $106 次计算。对于

parallel-CNN

的训

parallel-CNN

模型同样取得0 3,5,7,9,111窗口的局

的训练时间和预测时间增长速率远大于GMP-CNN, 近似为指数增长,主要原因为,1$堆叠结构使得

GMP-CNN模型计算得到某个大窗口的局部语义特 征,同时计算得到一系列较小窗口的局部语义特征, 因此GMP-CNN在卷积部分的计算量明显少于

部语义特征,需要进行[(3 +5 +7 +9 +11) 5 100 5 20] x 100 - 7 x 106次计算,GMP-CNN计算量大幅 减少。2) GMP-CNN使用分类模块代替parallel-CNN 中的全连接层,分类判别的计算量远小于全连接层 的计算量。

从图7、图+可以看出,无论在情感二分类还是 五分类标注训练过程中,窗口大小相等的GMP-CNN 模型和parallel-CNN模型的训练正确率收敛相似, 在相同训练批次,GMP-CN

N

parallel-CNN模型要少,因此GMP-CNN模型在训练

N

效率上比parallel-CN数基于parallel-CN率高。

N

高很多,从而认为其比大多

基础结构的CNN模型训练效

模型的训练时间远比

306

计算机工程

1.2 r

2019年3月15日

—GMP-CNN模型 —parallel-CNN模型

500

1 000 批次(a)GMP-CNN-3

1 500

I—

〇.2 卜

GMP-CNN模型

| — parallel-CNN模型

1 500

2 000

0.0 1

500

1 000

批次(b)GMP-CNN-5

2 000

1.2 r

1.2 r

1.0

懌0.6

0.4

—GMP-CNN模型

一 parallel-CNN模型

0.8

0.8

0.6

C懌

,

I—-GMP-CNN模型模型

| —- parallelparallel-CNN-CNN 模型模型

500

1 000批次

(d)GMP-CNN-9

1 500

0.4

_

0.2

'

〇.2 _

0.0—1-------1--------1-------1

500

1 000

1 500

批次 (c)GMP-CNN-7

2 000

0.0

0 2 000

图7

1.00.80.6

0.4

GMP-CNN与parallel-CNN模型训练正确率对比(二分类)

—GMP-CNN模型

parallel-CNN 模型

—GMP-CNN模型

parallel-CNN 模型

1.0

#

0.80.6

0.4

0.20.2

500

ylkMUliHl

批次

(b)GMP-CNN-5

-GMP-CNN模型 -parallel-CNN 模型

-

0.0

1 000

批次

⑷ GMP-CNN-3

1 5002 000

_______|_______|_______|0.0I_______|

2 0005001 5001 000

1.21.00.80.6

0.4

-

1.2

-GMP-CNN模型

-parallel-CNN 模型

1.00.8

0.2

r:

批次

(c)GMP-CNN-7

0

v^m

500

1 000 1 0001 500 批次

(d)GMP-CNN-9

2 000

0.0_________________I____________|_____________________i_________________i

〕 500 1 000 1 0001 500 2 000

图8

4. 5.2

Q Q i_____________i_______________i_______________________i_________________i

' 0

GMP-CNN与parallel-CNN模型训练正确率对比(五分类)

GMP-CNN情感分类标注正确率分析

从表4可以看出,当进行情感二分类标注任务 时,在词向量可以调整的情况下,所有GMP-CNN 模型正确率均大于CharSCNN模型,特别是当卷积 层达到11层时,正确率比

CharSCNN

模型高

1.8%。在进行情感五分类标注任务时,当卷积层 达到9层时,GMP-CNN模型开始优于CharSCNN 模型,当卷积层达到11层时,正确率比CharSCNN 模型高1.4%,从而验证GMP-CNN模型应用于情 感分类标注的有效性。

表4在SSTb数据集上不同模型分类标注正确率 %

模型二分类五分类GMP-CNN-3-nostatic83.242.3

GMP-CNN-5-nostatic83.542.5

GMP-CNN -7 -nostatic83.542.7GMP-CNN -9 -nostatic83.843.6

84. 1GMP-CNN-11 -nostatic44.9

GMP-CNN-3-static79.739.8

40. 1GMP-CNN-5-static80. 1

parallel-CNN-344.383.7

parallel-CNN-583.843.8

84.0parallel-CNN-745.284. 1parallel-CNN-944.5

CharSCNN82.343.5

第45卷第3期

周锦峰,叶施仁,王晖:基于深度卷积神经网络模型的文本情感分类

307

从表4还可看到,无论是情感二分类还是五分

类标注,parallel-CNN均优于CharSCNN。其原因为 CharSCNN设定一种窗口大小的卷积层,只能提取 一种窗口的局部语义特征,而多窗口的局部语义特 征可以捕捉更多不同距离上的语义依赖性,这种依 赖性对判断文本整体情感分类影响较大,特别是情 感多分类标注任务。下文实例说明了在远距离上的 语义依赖性对整个句子情感的影响,

实例 1 at all clear what it’ strying to say andeven if it were -- I doubt it.

实例 2 at all clear what it’s trying to say and even if it were -- I doubt it would be all that

interesting.

可以看出,实例2的负面情感程度比实例1弱 一些,因为doubt后面4个词距离上的all影响了其 强烈程度,从而影响全句负面情感的强烈程度。实 例'的真实分类是负面,而实例2的真实分类是中 性。可见,parallel-CNN正确率虽然有时略高于 GMP-CNN,但总体上基本持平。

4. 5. 3 GMP-CNN卷积层层数对标注正确率的影响

GMP-CNN随着卷积层层数增加,二分类标注 和五分类标注正确率总体提高,由此认为正确率的 提高主要是因为每增加一层卷积层,就会抽取更大 窗口的局部语义特征。虽然每增加一个卷积层,也 会增加一个分类模块,使得整个模型规模增加,带 来过拟合的可能性,但增加的GMP层具有结构上 的正则化性*16 +,从而有效防止模型过拟合的发生。 4.5.4词向量调整对标注正确率的影响

根据表 4 中 GMP-CNN-3-nostatic、GMP-CNN-3- static 和 GMP-CNN-5-nostatic、GMP-CNN-5-static 实 验对比可以看出,对于分类正确率,词向量在训练过

程中是否可调整是非常重要的。预训练好的词向量 保存词与词之间的通用语法关系,但这种语法关系 受限于训练词向量的语料库[7]。同时,SSTb数据集 中有一千多不存在于预训练词向量库中的词,只用 随机数代替。因此,将词向量作为GMP-CNN训练 参数,在训练过程调整词向量。对于预训练好的词 向量,这种调整策略可以更好地反映SSTb数据集的 词与词之间的语法关系。对于随机数代替的词向 量,该过程类似针对SSTb数据集的情感分类标注任 务进行词向量训练。表5列举了在二分类标注任务 中,GMP-CNN-7-nostatic训练2 000批次后,词向量 变化最大的前'0个词,可以看出这些词有以下特 点:')情感极性强烈的词,如worst、bad、unfortunately、 powerful (problem (unpleasant; 2 )在文中出现频率较 高且能直接影响其他情感词的词,如too; 3 $本身有 较多词意,但在影评语境下突出某个词意的词,如 works、treat、worth。

表5经模型训练后的词向量变化情况排名

词语

新旧词向量的欧氏距离

出现频次

1worst1.95

532too1.914493bad1. 8323unforunately1.78295powerful1.75516works1.75857treat1.71248problem1.68539unpleasant1.611510worth

1.56

98

5

结束语

本文提出一种多个卷积层堆叠的GMP-CNN 模型。GMP-C

NN

模型能提取出包含多个抽象级

别和多种窗口的局部语义特征。实验结果表明, 在文本情感分类标注任务中,与其他CNN模型相 比,GMP-C

NN

模型可有效提高训练效率、加快预

测速度。下一步将研究更深层次的CNN

模型在

情感分类标注任务中的应用,并综合不同窗口的 局部特征,提高GMP-CNN模型的情感分类标注 正确率。

参考文献

[1 ]

MEDHAT W,HASSAN A,KORASHY H. Sentiment analysis algorithms and applications: asurvey [ J ]. Ain

Shams Engineering Journal,2014,5(4):1093-1113.

[2] KUBLER S,MCDONALD R,NIVRE J. Synthesis

lectures on human language technologies [ EB/OL ]. [2018-01-05]. http://www. morganclaypool. com/doi/ abs/10. 2200/S00416ED1V01Y201204HLT016.

[3]

PANG B,LEE L,VAITHYANATHAN S,et al. Sentiment classification using machine learning techniques [ C ] //Procedings of Empirical Methods in Natural Language Processing$ Philadelphia, USA: Association for Computational Linguistics,2002 :79-86.

[4 ]

MA M,HUANG L,ZHOU B,et al. Dependency-based convolutional neural networks for sentence embedding [EB/OL ]. [ 2018-01-05 ] .http ://www. oalib. com/

paper/4048778.

[5 ]

SANTOS C N D,GATTIT M. Deep convolutional neural networks for sentimentanalysis of short texts [ C ]// Proceeding of the 25th International Conference on Computational Linguistics. Dublin,Ireland: [ s. n. ],2014: 69-78$

[6]刘龙飞,杨亮,张绍武,等.基于卷积神经网络的微博 情感倾向性分析[J].中文信息学报,2015,29 (6): 159-165.

308

[7 ]

计算机工程

LEE G,JEONG J, SEO S, et al. Sentiment classification with word attention based on weakly supervised learning with a

convolutional neural network [ EB/OL ].

[14]

2019年3月15日

SIMONY AN K,ZISSERMAN A. Very deep convolutional networks for large-scale

image recognition [ C ]//

Proceedings of International Conference on Learning Representations. Washington D. C. , USA: IEEE Press, 2015:1-7.

[2018-01-05 ]. https ://a,iv. org/abs/1709. 09885.

[8]

SANTOS C N D, XIANG B, ZHOU B. Classifyingrelations

by

ranking

with

convolutional

neural

[15 ]

networks* J]. Computer Science,2015,86 : 132-137.

[9]

WANG L, CAO

Z, MELO

G, et

al.

Relation

HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [ C] //Proceedings of 2016 IEEE Conference

on

Computer

Vision

and

Pattern

Recognition. Washington D. C. , USA: IEEE Press, 2016:770-778.

classification via multi-level attention CNNs [ C]// Proceeding of the 54 th Annual Meeting

of the

[16] [17]

Association for Computational Linguistics. Philadelphia, USA: Association for Computational Linguistics, 2016 : 1298-1307.

[10]

LIN M,CHEN Q,YAN S. Network in network [EB/OL]. [2018-01-05 ]. https ://arxiv. org/abs/1312.4400.

SRIVASTAVAN, HINTON G E, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting [ J ]. Journal of Machine Learning Research ,2014,15 (1): 1929-1958.

LIN Y,SHEN S,LIU Z, et al. Neural relation extraction

witli selective attention over instances [ C] //Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Philadelphia, US A: Association for Computational Linguistics,2016,2124-2133.

[18]

SOCHER R, PERELYGIN A, WU J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank [ C ] //Proceedings of Empirical Methods in Natural LanguageProcessing. Philadelphia, USA: Association for Computational Linguistics, 2013: 1631-12.

[11] DONG L, WEI F, XU K, et al. Adaptive multi- compositionality for recursive neural network models [ J ]. IEEE Transactions on Audio, Speech, and Language Processing, 2016,24(3):422-31.

[19]

PENNINGTON J,SOCHER R, CHRISTOPHER D, et al. GloVe: global vectors for word representation [ C ] // Proceedings of Empirical Methods in Natural Language Processing.

Philadelphia,

USA:

Association

for

Computational Linguistics ,2014 :1532-1543.

[12] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model [ J ]. Journal of Machine Learning Research,2003 ,3(6) :1137-1155.

[13] KIM Y. Convolutional neural networks for sentence classification[C]//Proceedings of Empirical Methods in Natural

Language

for

Processing.

Philadelphia, USA: Linguistics, 2014 :

[20]

TANG D,QIN B, LIU T, et al . Aspect level sentiment classification with deep memory network [ EB/OL ].[2018-01-05 ]. https ://arxiv. org/abs/1605.000.

Association 1746-1751.

Computational

编辑陆燕菲

(上接第299页)

[14] 路荣,项亮,刘明荣,等.基于隐主题分析和文本聚类

hot-report/20180122160439.

的微博客中新闻话题的发现[J].模式识别与人工智 能,2012,25(3):382-387.

[15]

IWATA T, YAMADA T, SAKURAI Y, et al. Online multiscale dynamic topic models [ C] //Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM Press ,2010:663-672.

[16]

CHEN C C,

CHEN Y T,

Conference

SUN

Y, et

modeling of news events using aging theory [ C ] //Proceedings of European

[17]

on Machine

Learning. Berlin,Germany:Springer,2003 :47-59.

蚂蚁软件.2017年度社会热点事件传播特点分析

[EB/OL]. [ 2018-01-22 ]. http://www. eefung. com/

[18] 吴平博,陈群秀.基于时空分析的线索性事件的抽取 与集成系统研究[J].中文信息学报,2006,20( 1): 21-28.

[19] ZHANG Y, CHEN M D, LIU LZ. A review on text

mining [ C] //Proceedings of the 6th IEEE International Conference on Software Engineering and Service Science. Washington D. C. ,USA:IEEEPress,2015:5.al. Life cycle

[20] FAHAD A,ALSHATRI N, TARI Z, et al. A survey of

clustering algorithms for big data: taxonomy and empirical analysis [ J ]. IEEE Transactions on Emerging Topics in Computing ,2014,2(3) :267-279.

编辑 陆燕菲

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务