基于图书特征及词典的豆瓣图书垃圾评论识别 PDF Free Download

1 / 6
0 views6 pages

基于图书特征及词典的豆瓣图书垃圾评论识别 PDF Free Download

基于图书特征及词典的豆瓣图书垃圾评论识别 PDF free Download. Think more deeply and widely.

收稿日期:2018-12-26 修回日期:2019-04-30 网络出版时间:2019-06-27
基金项目:国家自然科学基金(61672040)
作者简介:刘高军(1962-),,硕士,教授,CCF 会员(78191M),研究方向为软件工程及大数据存储;印佳明(1993-) ,,,研究方向为自
然语言处理文本情感分析等
网络出版地址:http:/ / kns. cnki. net / kcms / detail / 61.1450. TP. 20190627.1102.038. html
于图书特征及词典的豆瓣图书垃圾评论识别
刘高军,印佳明
(北方工业大学 计算机学院,北京 100144)
:随着互联网的普及和便利,现如今国内外点评网站和各类商务网站高速发,各类评论信息正在不断影响着人们
的生活豆瓣网就是很知名的网络社区,越来越多互联网用户会在豆瓣网上发表电影图书和音乐等的评论,
越多的人们会在看电影前看书前或者是听音乐前看看豆瓣上的评分和评论去决定是去看所以此时垃圾评论的
识别就至关重要,因为垃圾评论会影响人们对这个事物文中引入了语义分析图书特征词典和垃圾评论词
语义分析有利于检测垃圾评论附加功能,时会使用权重比例过滤模型检测垃圾评论实验结果表明,文中方法可
以达到 85.4%的准确率,能有效准确地识别垃圾评论
关键词:互联网;豆瓣;图书评论;语义分析;垃圾评论检测
中图分类号:TP301摇摇摇摇摇摇摇文献标识码:A摇摇摇摇摇摇文章编号:1673-629X(2019)11-0107-06
doi:10.3969 / j. issn. 1673-629X. 2019.11.022
Identification of Douban Book Spam Comments Based on
Book Features and Dictionary
LIU Gao-jun,YIN Jia-ming
(School of Computer,North China University of Technology,Beijing 100144,China)
Abstract:With the popularization and convenience of the Internet,comment sites and various business websites at home and abroad are
developing at a high speed,and various kinds of commentary information are constantly affecting peoples lives. Douban is a well-
known online community. More and more users will post comments on movies,books and music on Douban. At the same time,more and
more people will look at the ratings and comments on Douban before watching movies,reading books or listening to music to decide
whether to watch or listen. So the identification of spam comments is crucial,because spam comments will affect peoples true perception
of this thing. We introduce semantic analysis,book feature dictionary and spam dictionary. Semantic analysis is beneficial to the
additional function of spam comment detection,and it can use the weight proportional filter model to detect spam comments. The
experiment shows that the proposed method can achieve 85.4% accuracy and can effectively and accurately identify spam comments.
Key words:Internet;Douban;book review;semantic analysis;spam comment
0
,
唱片评论和价格比较,
,西
经拥 1.6亿的注册用户, 3亿,
是目前最大的用户分享的社区网站之一在豆
吸引,对某些图书
决定,
先去豆瓣上查看该图书的评分和评价然而
评论的机制,
发表,这些评论会影响用户正
书的,会对这本书和这些需要这些
评论作为参考的网友产生不好的影响
[1] ,
论中垃圾词或短语的语义信息文中
词以,
括这些评论单词的词向量的表示和这些词语之间的向
根据文献[2 -
4],广
29 11
2019 11 摇摇摇摇摇摇摇摇摇摇 计算机技术与发展
COMPUTER TECHNOLOGY AND DEVELOPMENT摇摇摇摇摇摇摇摇摇摇Vol. 29 No. 11
Nov. 2019
于情感和文本分类,并取得了很好的效果
使学习,
识别豆瓣图书评论中的垃圾评论提出
征相,其中词典构建过程分
:,找出单词的语义区
,;,
汇类将评论中的垃圾评论词汇划分为广告
汇类别和粗俗词汇类别;,词汇权重判断
书评论中评论词汇的主观性和类别的范围
权重比例过滤器模型将使用统计分析方法得到图
垃圾,权重和比例
作为决定这个评论是否是垃圾评论的关键因素
模型解决了短文本评论和长文本评论中垃圾评论词分
布不如果只是通过垃圾评论权重因子去
测垃,则正常评论的文本越长,
权重,
圾评,从而降低垃圾评论的
精确率此外,评论只有一个或两个中等加权垃
评论,将会导致总权重低于标
线,误判这个评论是正常评论,从而降低召回率
过这两个关键因素的组合更精确地检测垃
1 相关
1. 1 互联网垃圾评论检测的发展情况
文中的研究属于社交网络中的垃圾评论和垃圾评
论者识别检测领域在过去的十几年里,垃圾评论已
成为
络用户通过发布评评估产品质量来分享他们的消
费体验,
其他用户的评论,
具有导向作用
相关统计数据表明,81%的美国互联网用户在
参考,其中超过 80%
为评论对他们的购买行为产生了影响这其
大的商业利益,
评论,是指一些用户出于商业或其他
不良,在评论中捏造虚假的消费体验,
价对
不实,刻意地吹捧或者诋毁某些产
,
考价值,,从而会误导潜在消费者时有
用户会发布广告
,扰用
,同时有些商家会雇佣网络水
产品刷好评或者恶意给竞争商家的产品差
,这些评论会影响消费者和商家自身对产品的判断
导用,并影响人们的日
[5]
其他垃圾评论研究工作者使用机器学习方法去识
别检文献[6] 提出了一种
主题,其中包含主题相似性度量,
(SVM
)来检测垃圾评论Mukherjee
Yelp 数据,运用评论文本
65.6%~ 67.8%在加入评论者
的特征之后, 84.8%~ 86.1%
研究说明评论者特征有助于提升对虚假评论文本的检
测能[7]用朴素贝叶斯方法和联合训练机
, Epinions
的虚, 61.3%F1Hammad
上运用户行
tripadvisor. combooking. com agoda. ae
, 99.59%
F1
[8]
目前主要是集中在分析和检测国外英文垃圾评论
垃圾评论发送者的行为特征与上述研究不
,
特征和相关统计分析技巧去识别检测垃圾评论
1. 2 豆瓣图书数据收集过程
文中使用的数据集是通过分布式爬虫爬取的豆瓣
网上的图书相关信图书的真实评论以及相关用户
对书籍的偏好数据,豆瓣中的偏好数据是对这些书籍
进行打分这些数据中评论超过 1 000 条的图书有
1 283,超过 10 000 80 ,
使
2 豆瓣垃圾评论词典
通过分布式爬虫爬取了豆瓣图书 700
中的一部分,使中文分
分成单独的中文单词
,使 Word2Vec 模型计算需要的 80%评论单词的
向量然后使用所得的矢量单词文件建立候选
垃圾通过计算单词之间的向量距离获得
义相,然后用它来决定候选垃圾词
汇词典中每个单词的垃圾词汇权重然后
递归算法,
,使
20%手机-比例过滤器模
型的准确率和效率1书评
圾评论的流程
·801·摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇计算机技术与发展摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇29
1 豆瓣图书垃圾评论检测流程
垃圾评论词汇是对读者产生负面影响并在评论中
存在时会影响用户体验的词可以是动词
副词甚至是成语,尼玛
,垃圾评论词是检测垃圾评
论词汇词典是垃圾评论词的集合,
的广,
了各自的垃圾评论权重值
垃圾评论词典中所选垃圾词汇主要来自三个相关
的基:基本广告词典和豆瓣垃
评论这三个基础词典是由粗鄙字词和广告字
种子组合而成
垃圾评论词汇(spam word,SW)定义为发布的评
广它有两个属性:
(C)和权重(W) 词汇类别包括广
(A)( V)两个垃圾评论文本类别
中发布单词时给读者带来的不良影响的程
垃圾评论词汇类别和权重如下所示:
SW(span word) ={C:W},C {A,V},W {0.
10. 5} (1)
, W0.1 ~ 0.5之间的区间内
,
W处于较低值( 0.1) ,表示该词汇可被视
为正常单词,
,如果将最高阈值
0.5,则很难确定迭代过程中的最低准确
度阈值(是用于收集垃圾评论词汇并计算相应垃圾
)
, W的值小于 0.1的单词与正常单词高度相
,因此将 0.1定义为最低阈值,
更加准确地识别图书垃圾评论
2. 1 Word2Vec Skip-Gram
在构,基于现有的神经
,主要利用 Mikolov [9 -12 ] 提出的
Skip-Gram ,Skip-
Gram 模型可以通过将评论单词进行向量表示,然后预
测自扩展词汇与输入单词之间的相似度
1
A
A
a = 1
(
-sis,i屹0
logp(wa + i wa)) (2)
其中,w1wa;s
训练窗口(span)在训练窗口中从-ss
wa + i ,给出中间的
wa p(wa + i wa) 3中目标的核心部
,由归一化指数函数定义:
p(wa +i wa)=eu'
wa + i
Tuwa
W
w = 1
eu'
w'Tuwa
(3)
其中,uwuw'分别是单词的上下文和目标向量
;W是词汇表的大小[13-15],
于归一化等式的时间复杂度限制,3 O(| W | )
时间复杂度
2. 2 词典
造成,因为它们可能会
一般来说,读者的
到词
详细构建过程如下:
(1)集垃圾评论词种子:收集了来自中国语料
库和 5人提交的约 200
,
,可以确定所选单词的词汇类别
收集,最后的粗俗词语种子列表包
100 个单词
(2):
,从豆瓣图书所有评论中选择了 5,
3个或更多粗俗词,同时,些图
的长度至少包含 12 个单词
(3):使用
图书垃圾评论分解为单独的单词
Word2Vec 中的 Skip -Gram 模型扩充词典,最后存放
在一个文件中
(4):,
380 个粗俗单词
因此,收集了总共 480 个粗俗词,
0.5,果一,
那么这条评论有很大的可能性是垃圾评论
·901·
11 摇摇摇摇摇摇摇摇摇摇刘高军等:基于图书特征及词典的豆瓣图书垃圾评论识别
2. 3 广
基本广告词典中的大部分单词都出现于用户评论
广等与
,来干扰用户或者借助热门图书营销自己的商品,
然而对于读者来说可能无法区分真
,因此,所有含有广告词的评论都可被视为读者的潜
在垃文中使用构造基本垃圾评论词典的相
造了广告基本词典广
380 个广告垃圾词广
0.4,广圾词,
者的伤害小于粗俗单词
2. 4 词典
由于,
本身,每本书其实都有它自己的
比如一本科幻类描述人工智能的书籍,
篇全,那这条评论
肯定是垃圾评论所以需要对每本书进行特征提取,
名和,将这些关键字与
对应的图书唯一标识组成一个数据行存储到豆瓣图书
相关,-0.5
含这,则这条评论是普通评论
的可能性很大
验证,除了需要引入的语义相似度,
是通过计算微博词与构造的基本词典词之间的向量距
离得出,旨在弄清微博词的语义指向K-nearest
neighbor(KNN)方法类似,
,计算那些标记的样本点与新点之间的相似
[16] ,使
,这有助于构建 WDS [17]
距离由词向量的余弦距离测量, 4
距离值越高,两个词的相似度越大
cos =
n
k = 1
x1k- x2k
n
k = 1
x2
1k
n
k = 1
x2
2k
(4)
,通过式 4
其评,
这个,然后与基本垃圾评论
集中的单词权重求和,并进行分析
2. 5 权重比例过滤器模型
基本垃圾评论词汇词典中的每个垃圾评论词都会
权重,所以可以通过每条评论中
垃圾评论词汇数量和权重去判定这条评论是否是垃圾
S1,…,Sn
W1,…,Wn通过研究发现,
对于,特别是垃圾评论的发送者,
13 个中文单词内发表评论,将其定义为简短评论,
13
这些,从评论数量前十的图书的所
4 000 ,
35.5%,长评论的比例占 63.4%,
由表,这部分评论
直接判定为垃圾评论
对不同长度评论中分发的垃圾词的比例进行了分
, 2所示可以得出结论,
是不对称的,分配的垃圾词的比例主要在 0.5以下
2 垃圾
通过,在权重比例过滤模型
关键:每条垃圾评论中垃圾词汇的
;含的
将变量 C(Si)定义为句子 Si
垃圾, P Si
圾评论范围计算如下:
SW(Si)=
n
i = 1
(SW(Wi)) (5)
P(Si)=C(Si)
length(Si)(6)
,可以合理推理句子
Si,:
(1) P(Si)SW(Si)的值都很小,Si可能不
是垃圾评论;
(2) P(Si) SW(Si)的值很大,Si
是垃圾评论;
(3) P(Si) SW(Si)的值很小,Si
可能不是垃圾评论;
(4) P(Si)SW(Si)的值都很大,Si是垃圾
P(Si)SW(Si)的阈值,从评论数量
图书的评论中随机抽取 1 000 条正常评论和
1 000条垃圾评根据基本垃圾评论词典计算每个
·011·摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇计算机技术与发展摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇29
SW P的值SW P的分布如图 3
0
3 正常评论垃圾评论权重-
3可明确看出,SW P的阈值可以确定为
1.00.3 评估垃圾评论的标准总结如下:
Si, SW(Si) <0.5P(Si)
0郾 6, ,否则该评论被视为垃圾评论;
对于 Si, SW(Si) <1.0P(Si) 0.3,
其为正常评论,否则该评论被视为垃圾评论
3 实验结果及分析
,
进行了如下两个相关实验:
(1) 从评论数最多的图书的评论中识别垃圾
(2)
,对这些图书的评论进行随机抽样
使用分类算法对实验结果进行测量, 1
1 分类
垃圾 正常
检测为垃圾评论 a b
未被检测为垃圾评论 c d
,a表示正确分类为垃圾评论的评论数;b
示错误归类为垃圾评论的正常评论数;c
的垃;d表示正确分类成正常
评论的评论数
(P)和召回率(R)来衡量实验
:
P = a / (a + b) (7)
R = a / (a + c) (8)
F1PR的调和均值,
:
F1=2*P*R / (P + R) (9)
从评论数最多的图书的评论中识别垃圾评论:
选取白夜行的所有评论,66 175
条评论数据作为输入文件通过权重比例模型过滤这
些评论,经过统计分析,垃圾评论检测精度为 91.8%,
82.5%,F186.9%, 4
4 实验
4,平均精确率为 85.4%,平均召
89.02%, F1 87.12%从这些结果
,比例
精确率 F1,文中方法可以有效地
检测垃圾评论并具有相对准确性
目前还有很多研究人员在研究垃圾评论内容检测
问题,但由于选择了不同的数据集和垃圾评论特征,
,
将这些结果与文中得到的结果进行比较是不合适的
4 结束语
文中对豆瓣图书评论进行了深入分析为了
垃圾,从词语语义特征的新视角构
词典,非常适合图书类
垃圾评论的检测,将单个评论的垃圾评论词汇
权重和垃圾评论比例定义为权重比例过滤器模型中的
两个关键属性,以检测不同长度的垃圾评论这两种
垃圾评论检测方法是文中研究的核心方法在垃
论检测实验中验证了该方法的有效性和准确性
尽管所获得的结果对于豆瓣图书垃圾评论检测是
很理想的,
中的,同时可以分析用户的评论习惯,
论用户的特征来进一步检测垃圾评论通过
户之,可以进一步提高垃圾评
论检测的精确率和召回率下一步将在研究检测垃圾
评论的下一阶段引入更深层次的结构化特征并考虑用
户特征,便-垃圾评论组合关系等方面
参考文献:
[1] 单晓红,张晓月,刘晓燕,.在线产品评论有用性识别方
法研究[J].北京工业大学学报:社会科学版,2018,18(5):
·111·
11 摇摇摇摇摇摇摇摇摇摇刘高军等:基于图书特征及词典的豆瓣图书垃圾评论识别
73-82.
[2] LILLEBERG J,ZHU Yun,ZHANG Yanqing. Support vector
machines and word2vec for text classification with semantic
features[C]/ / IEEE 14th international conference on cogni鄄
tive informatics & cognitive computing. Beijing,China:
IEEE,2015:136-140.
[3] BAI Xue,CHEN Fu,ZHAN Shaobin. A study on sentiment
computing and classification of Sina Weibo with word2vec
[C]/ / 2014 IEEE international congress on big data. Anchor鄄
age,AK,USA:IEEE,2014:358-363.
[4] SU Zengcai,XU Hua,ZHANG Dongwen,et al. Chinese sen鄄
timent classification using a neural network toolWord2vec
[C]/ / 2014 international conference on multisensor fusion
and information integration for intelligent systems. Beijing,
China:IEEE,2014:1-6.
[5] ,.基于购物领域词典扩建的评论情感研究
[J].计算机技术与发展,2017,27(7):194-199.
[6] R魤DULESCU C,DINSOREANU M,POTOLEA R. Identifi鄄
cation of spam comments using natural language processing
techniques[C]/ / 2014 IEEE 10thinternational conference on
intelligent computer communication and processing. Cluj
Napoca,Romani:IEEE,2014:29-35.
[7] HU Xia,TANG Jiliang,ZHANG Yanchao,et al. Social
spammer detection in microblogging[C]/ / Twenty-third in
ternational joint conference on artificial intelligence. Beijing,
China:AAAI Press,2013:2633-2639.
[8] 李璐旸,,.虚假评论检测研究综述[J].
机学报,2018,41(4):946-968.
[9] ,.基于多特征融合的评论文本情感分析
[J].计算机技术与发展,2018,28(8):91-95.
[10] MIKOLOV T,SUTSKEVER I,CHEN Kai,et al. Distributed
representations of words and phrases and their compositional鄄
ity[C]/ / Proceedings of the 26th international conference on
neural information processing systems. Lake Tahoe,Nevada:
Curran Associates Inc. ,2013:3111-3119.
[11] ZAHRAN M A,MAGOODA A,MAHGOUB A Y,et al.
Word representations in vector space and their applications
for arabic [C]/ / International conference on intelligent text
processing and computational linguistics. Cairo,Egypt:
Springer,2015:430-443.
[12] MIKOLOV T,YIH W,ZWEIG G. Linguistic regularities in
continuous space word representations[C]/ / Proceedings of
the 2013 conference of the North American chapter of the as鄄
sociation for computational linguistics:human language tech鄄
nologies. Atlanta,Georgia:[s. n. ],2013:746-751.
[13] 刘华春,王星捷.络舆情信息提取技术研究与实现[J].
计算机技术与发展,2016,26(9):8-11.
[14] MORIN F,BENGIO Y. Hierarchical probabilistic neural net鄄
work language model[C]/ / Tenth international workshop on
artificial intelligence and statistics. The Savannah Hotel,Bar鄄
bados:[s. n. ],2005:246-252.
[15] 宋海霞,,余正涛,.
检测[J].南京:自然科学版,2013,49 (4):433 -
438.
[16] R魤DULESCU C,DINSOREANU M,POTOLEA R. Identifi鄄
cation of spam comments using natural language processing
techniques[C]/ / 2014 IEEE 10th international conference on
intelligent computer communication and processing. Cluj
Napoca,Romania:IEEE,2014:29-35.
[17] 张建华,,李晓乐,.
的评 [J]. ,2016,26 (2):
52-55.
·211·摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇计算机技术与发展摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇29