基于图书特征及词典的豆瓣图书垃圾评论识别 PDF Free Download

Name: 基于图书特征及词典的豆瓣图书垃圾评论识别 PDF
Author: ms_michael

1 / 6

0 views•6 pages

基于图书特征及词典的豆瓣图书垃圾评论识别 PDF Free Download

基于图书特征及词典的豆瓣图书垃圾评论识别 PDF free Download. Think more deeply and widely.

收稿日期:2018-12-26摇摇摇摇摇摇修回日期:2019-04-30摇摇摇摇摇摇网络出版时间:2019-06-27

基金项目:国家自然科学基金(61672040)

作者简介:刘高军(1962-),男,硕士,教授,CCF 会员(78191M),研究方向为软件工程及大数据存储;印佳明(1993-) ,男,硕士,研究方向为自

然语言处理、文本情感分析等。

网络出版地址:http:/ / kns. cnki. net / kcms / detail / 61.1450. TP. 20190627.1102.038. html

基于图书特征及词典的豆瓣图书垃圾评论识别

刘高军,印佳明

(北方工业大学计算机学院,北京 100144)

摘摇要:随着互联网的普及和便利,现如今国内外点评网站和各类商务网站高速发展,各类评论信息正在不断影响着人们

的生活。豆瓣网就是很知名的网络社区,越来越多互联网用户会在豆瓣网上发表对电影、图书和音乐等的评论,同时越来

越多的人们会在看电影前、看书前或者是听音乐前看看豆瓣上的评分和评论去决定是否去看或听。所以此时垃圾评论的

识别就至关重要,因为垃圾评论会影响人们对这个事物真实的看法。文中引入了语义分析、图书特征词典和垃圾评论词

典。语义分析有利于检测垃圾评论附加功能,同时会使用权重比例过滤模型检测垃圾评论。实验结果表明,文中方法可

以达到 85.4%的准确率,能有效准确地识别垃圾评论。

关键词:互联网;豆瓣;图书评论;语义分析;垃圾评论检测

中图分类号:TP301摇摇摇摇摇摇摇文献标识码:A摇摇摇摇摇摇文章编号:1673-629X(2019)11-0107-06

doi:10.3969 / j. issn. 1673-629X. 2019.11.022

Identification of Douban Book Spam Comments Based on

Book Features and Dictionary

LIU Gao-jun,YIN Jia-ming

(School of Computer,North China University of Technology,Beijing 100144,China)

Abstract:With the popularization and convenience of the Internet,comment sites and various business websites at home and abroad are

developing at a high speed,and various kinds of commentary information are constantly affecting people爷s lives. Douban is a well-

known online community. More and more users will post comments on movies,books and music on Douban. At the same time,more and

more people will look at the ratings and comments on Douban before watching movies,reading books or listening to music to decide

whether to watch or listen. So the identification of spam comments is crucial,because spam comments will affect people爷s true perception

of this thing. We introduce semantic analysis,book feature dictionary and spam dictionary. Semantic analysis is beneficial to the

additional function of spam comment detection,and it can use the weight proportional filter model to detect spam comments. The

experiment shows that the proposed method can achieve 85.4% accuracy and can effectively and accurately identify spam comments.

Key words:Internet;Douban;book review;semantic analysis;spam comment

0摇引摇言

豆瓣是一个中国社区网站,提供图书、电影、音乐

唱片的推荐、评论和价格比较,以及城市独特的文化生

活,在这里用户谈论他们喜欢的任何东西。如今它已

经拥有超过 1.6亿的注册用户,月平均活跃用户 3亿,

是目前最大的用户分享的社区网站之一。在豆瓣上收

录的一些图书吸引很多网友去发表评论,对某些图书

感兴趣的人在决定是否要看这本书的时候,也往往会

先去豆瓣上查看该图书的评分和评价。然而由于豆瓣

评论的机制,现在越来越多的水军或者恶意诋毁的网

友会在豆瓣上发表垃圾评论,这些评论会影响用户正

确地判断这本书的价值,会对这本书和这些需要这些

评论作为参考的网友产生不好的影响。

以前传统的垃圾评论识别方法大多数都不完

善[1] ,如朴素贝叶斯和支持向量机没有考虑到垃圾评

论中垃圾词或短语的语义信息。文中将会充分考虑图

书评论中的单词以及单词组成的短语的语义信息,包

括这些评论单词的词向量的表示和这些词语之间的向

量距离去表示这两个词之间的关系。根据文献[2 -

4],从文本中的词汇中挖掘额外语义特征已广泛应用

第29 卷摇第11 期

2019 年11 月摇摇摇摇摇摇摇摇摇摇计算机技术与发展

COMPUTER TECHNOLOGY AND DEVELOPMENT摇摇摇摇摇摇摇摇摇摇Vol. 29摇 No. 11

Nov. 摇 2019

于情感和文本分类,并取得了很好的效果。文中通过

使用基于深度学习模型和统计分析结合的方法,检测

识别豆瓣图书评论中的垃圾评论。提出一种垃圾评论

词典和图书特征相结合的方法,其中词典构建过程分

为三个阶段:第一,主观性判断。找出单词的语义区

别,将每个词汇划分为正常或垃圾评论词汇;第二,词

汇类别判断。将评论中的垃圾评论词汇划分为广告词

汇类别和粗俗词汇类别;第三,词汇权重判断。衡量图

书评论中评论词汇的主观性和类别的范围。

权重比例过滤器模型将使用统计分析方法得到图

书评论中包含垃圾评论词的权重和比例,权重和比例

作为决定这个评论是否是垃圾评论的关键因素。这个

模型解决了短文本评论和长文本评论中垃圾评论词分

布不同的问题。如果只是通过垃圾评论权重因子去检

测垃圾评论,则正常评论的文本越长,它在垃圾评论词

典中匹配更低权重单词的可能性就会越大,这会导致

正常评论的垃圾评论权重变高,从而降低垃圾评论的

精确率。此外,如果评论只有一个或两个中等加权垃

圾词汇的垃圾评论文本较短,将会导致总权重低于标

准线,误判这个评论是正常评论,从而降低召回率。可

以通过这两个关键因素的组合更精确地检测垃圾

评论。

1摇相关工作

1. 1摇互联网垃圾评论检测的发展情况

文中的研究属于社交网络中的垃圾评论和垃圾评

论者识别检测领域。在过去的十几年里,垃圾评论已

成为互联网的一个严重问题。这是因为越来越多的网

络用户通过发布评论、评估产品质量来分享他们的消

费体验,同时很多网络用户会在做出消费决策时参考

其他用户的评论,评论信息对用户的观点或消费行为

具有导向作用。

相关统计数据表明,约81%的美国互联网用户在

购买产品前会参考产品评论,其中超过 80%的用户认

为评论对他们的购买行为产生了影响。这其中存在巨

大的商业利益,人们对评论信息的依赖催生了垃圾评

论的出现。垃圾评论,是指一些用户出于商业或其他

不良动机,在评论中捏造虚假的消费体验,对质量的评

价对象进行宣传或诽谤。有些用户出于某些利益会对

产品发表一些不实评论,刻意地吹捧或者诋毁某些产

品,这些垃圾评论在一定程度上影响了评论信息的参

考价值,混淆视听,从而会误导潜在消费者。同时有些

用户会发布广告、链接等与商品略微相关或者毫不相

关的信息,来干扰用户或者借助热门商品营销自己的

商品,实现利益最大化。同时有些商家会雇佣网络水

军为自家产品刷好评或者恶意给竞争商家的产品差

评,这些评论会影响消费者和商家自身对产品的判断。

垃圾评论会误导用户的观点或决定,并影响人们的日

常生活[5] 。

其他垃圾评论研究工作者使用机器学习方法去识

别检测垃圾评论和垃圾评论者。文献[6] 提出了一种

主题检测方法,其中包含主题相似性度量,通过强制执

行自然语言处理技术和机器学习算法(如SVM、决策

树和朴素贝叶斯)来检测垃圾评论。Mukherjee 等在

Yelp 数据集上采用支持向量机分类器,运用评论文本

特征获得 65.6%~ 67.8%的准确度。在加入评论者

的特征之后,检测准确度提升至 84.8%~ 86.1%。该

研究说明评论者特征有助于提升对虚假评论文本的检

测能力。文献[7]运用朴素贝叶斯方法和联合训练机

制,采用文本及评论者特征对来自点评网站 Epinions

的虚假评论进行检测,获得 61.3%的F1值。Hammad

等在阿拉伯语上运用朴素贝叶斯方法及文本、用户行

为特征对 tripadvisor. com、booking. com 和agoda. ae 等

网站的评论数据进行虚假评论检测,获得 99.59%的

F1值。但这些研究都没有对评论文本进行情感

分析[8] 。

目前主要是集中在分析和检测国外英文垃圾评论

或识别垃圾评论发送者的行为特征。与上述研究不

同,文中的主要目的是借助识别豆瓣图书评论的语义

特征和相关统计分析技巧去识别检测垃圾评论。

1. 2摇豆瓣图书数据收集过程

文中使用的数据集是通过分布式爬虫爬取的豆瓣

网上的图书相关信息、图书的真实评论以及相关用户

对书籍的偏好数据,豆瓣中的偏好数据是对这些书籍

进行打分。这些数据中评论超过 1 000 条的图书有

1 283本,超过 10 000 条评论的图书有 80 本,足够实验

使用。

2摇豆瓣垃圾评论词典

通过分布式爬虫爬取了豆瓣图书 700 多万条评论

中的一部分,文中对这些评论文本使用“结巴冶中文分

词工具分成单独的中文单词。对这些单独的中文单

词,使用 Word2Vec 模型计算需要的 80%评论单词的

向量表示。然后使用所得的矢量单词文件建立候选的

垃圾词汇词典。通过计算单词之间的向量距离获得了

它们之间的语义相似度,然后用它来决定候选垃圾词

汇词典中每个单词的垃圾词汇权重。然后通过自扩展

递归算法,从候选垃圾评论词汇词典中选出符合自扩

展垃圾评论词汇词典要求的垃圾评论词汇。最后,使

用剩下的 20%手机的评论来验证权重-比例过滤器模

型的准确率和效率。图1为在豆瓣图书评论中检测垃

圾评论的流程。

·801·摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇计算机技术与发展摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第29 卷

图1摇豆瓣图书垃圾评论检测流程

垃圾评论词汇是对读者产生负面影响并在评论中

存在时会影响用户体验的词。可以是动词、名词、形容

词、副词甚至是成语,如“尼玛冶、“ 屌丝冶、“ 逗比冶、“ 碧

池冶和“傻帽冶等等。因而,垃圾评论词是检测垃圾评

论的根底。垃圾评论词汇词典是垃圾评论词的集合,

它被分为常见的广告词和具有粗鄙内涵的词,并添加

了各自的垃圾评论权重值。

垃圾评论词典中所选垃圾词汇主要来自三个相关

的基本词典:基本俗词词典、基本广告词典和豆瓣垃圾

评论词典。这三个基础词典是由粗鄙字词和广告字词

种子组合而成。

垃圾评论词汇(spam word,SW)定义为发布的评

论中单词的广告单词或粗俗特征。它有两个属性:词

汇类别 (C)和权重(W)。词汇类别包括“广告冶

(A)或“粗俗冶( V)两个垃圾评论文本类别。权重表

示在评论中发布单词时给读者带来的不良影响的程

度。垃圾评论词汇类别和权重如下所示:

SW(span word) ={C:W},C沂 {A,V},W沂 {0.

1…0. 5} (1)

在该模型中,权重 W在0.1 ~ 0.5之间的区间内

变化,值越高表示给读者带来的不良影响越大。当词

汇的 W处于较低值(小于 0.1) 时,表示该词汇可被视

为正常单词,这样处理可以提高垃圾评论检测的准确

率。因为考虑到图书评论数量很大,如果将最高阈值

定义成大于 0.5,则很难确定迭代过程中的最低准确

度阈值(这是用于收集垃圾评论词汇并计算相应垃圾

评论的过程)。通过自扩展递归算法的多次迭代之

后,发现 W的值小于 0.1的单词与正常单词高度相

似,因此将 0.1定义为最低阈值。通过这种方式,可以

更加准确地识别图书垃圾评论。

2. 1摇 Word2Vec 中的 Skip-Gram 模型

在构建垃圾评论词典的过程中,基于现有的神经

网络语言模型文献,主要利用 Mikolov 等[9 -12 ] 提出的

Skip-Gram 模型。在给定训练语料库的前提下,Skip-

Gram 模型可以通过将评论单词进行向量表示,然后预

测自扩展词汇与输入单词之间的相似度。

A移

a = 1

(移

-s臆i臆s,i屹0

logp(wa + i wa)) (2)

其中,w1…wa表示训练语料库中的单词;s表示

训练窗口(span)的大小。在训练窗口中从-s到s求

和来计算正确预测单词 wa + i 的对数概率,给出中间的

单词 wa。概率 p(wa + i wa)是式 3中目标的核心部

分,由归一化指数函数定义:

p(wa +i wa)=eu'

wa + i

Tuwa

移

w = 1

eu'

w'Tuwa

(3)

其中,uw和uw'分别是单词的上下文和目标向量

表示;W是词汇表的大小。通过文献[13-15]可知,由

于归一化等式的时间复杂度限制,式3需要 O(| W | )

时间复杂度。

2. 2摇基本垃圾词汇词典

“基本垃圾词汇词典冶中列出的词语被认为是对

用户阅读评论造成负面影响的词汇,因为它们可能会

让读者对这本图书产生负面情绪。一般来说,读者的

情绪更可能受到词典中包含的粗俗词语的负面影响。

详细构建过程如下:

(1)收集垃圾评论词种子:收集了来自中国语料

库和新华词典的 5人提交的约 200 个粗俗词。实际

上,这些单词不一定真正符合绝大多数人所持有的标

准。通过这个过程,可以确定所选单词的词汇类别。

在粗俗的词汇收集之后,最后的粗俗词语种子列表包

含大约 100 个单词。

(2)匹配垃圾评论:根据上面提到的粗俗词种子

列表,从豆瓣图书所有评论中选择了 5万条垃圾评论,

发现其中包含 3个或更多粗俗词,同时,这些图书评论

的长度至少包含 12 个单词。

(3)补充词典:使用“结巴冶中文分词工具将选定

的图书垃圾评论分解为单独的单词。接着通过

Word2Vec 中的 Skip -Gram 模型扩充词典,最后存放

在一个文件中。

(4)设置权重:手动分析文件中的每个单词,最后

在基本垃圾词汇词典中添加了另外 380 个粗俗单词。

因此,收集了总共 480 个粗俗词,然后为每个词附加了

最高权重 0.5,因为如果一段评论文本中出现这些词,

那么这条评论有很大的可能性是垃圾评论。

·901·

摇第11 期摇摇摇摇摇摇摇摇摇摇刘高军等:基于图书特征及词典的豆瓣图书垃圾评论识别

2. 3摇基本广告词典

基本广告词典中的大部分单词都出现于用户评论

发布广告、链接等与图书略微相关或者毫不相关的信

息,来干扰用户或者借助热门图书营销自己的商品,实

现利益最大化。然而对于读者来说可能无法区分真

假,因此,所有含有广告词的评论都可被视为读者的潜

在垃圾评论。文中使用构造基本垃圾评论词典的相同

方法构造了广告基本词典。最后广告基本词典包含

380 个广告垃圾词。将广告基本词典中单词的权重设

置为 0.4,因为广告垃圾词类似于普通单词,并且对读

者的伤害小于粗俗单词。

2. 4摇豆瓣图书特征词典

由于文中研究的是豆瓣图书垃圾评论,所以肯定

不能抛开图书本身的属性,每本书其实都有它自己的

属性特征。比如一本科幻类、描述人工智能的书籍,如

果一条评论整篇全在说这本书如何烹饪,那这条评论

肯定是垃圾评论。所以需要对每本书进行特征提取,

通过书籍的书名和简介提取关键字,将这些关键字与

对应的图书唯一标识组成一个数据行存储到豆瓣图书

相关词典,同时将这些关键字的权重设置为-0.5。因

为如果评论包含这些关键字,则这条评论是普通评论

的可能性很大。

验证垃圾评论,除了需要引入的语义相似度,主要

是通过计算微博词与构造的基本词典词之间的向量距

离得出,旨在弄清微博词的语义指向。与K-nearest

neighbor(KNN)方法类似,该方法首先标记几个样本

点,然后计算那些标记的样本点与新点之间的相似

性[16] 。同时,使用语义相似度计算注释中每个单词的

垃圾评论权重值,这有助于构建 WDS 词典[17] 。相似

距离由词向量的余弦距离测量,核心部分由式 4给出。

距离值越高,两个词的相似度越大。

cos兹 =

移

k = 1

x1k- x2k

移

k = 1

1k移

k = 1

(4)

在检测豆瓣图书垃圾评论时,通过式 4对豆瓣评

论中的单词与其评论图书特征进行相似度计算,按照

一定比例计算这个单词的权重,然后与基本垃圾评论

集中的单词权重求和,并进行分析。

2. 5摇权重比例过滤器模型

基本垃圾评论词汇词典中的每个垃圾评论词都会

有一个对应的权重相匹配,所以可以通过每条评论中

垃圾评论词汇数量和权重去判定这条评论是否是垃圾

评论。

首先需要将图书评论分为句子 S1,…,Sn并将每

个句子的垃圾词定义为 W1,…,Wn。通过研究发现,

对于大多数用户,特别是垃圾评论的发送者,更愿意在

13 个中文单词内发表评论,将其定义为简短评论,而

长度大于 13 个中文单词的评论则被定义为长评论。

为了深入了解这些特征,从评论数量前十的图书的所

有评论中随机选择了 4 000 条。经过统计分析得出,

简短评论的比例占 35.5%,长评论的比例占 63.4%,

而其余评论仅由表情符号组成或者太短,这部分评论

直接判定为垃圾评论。

对不同长度评论中分发的垃圾词的比例进行了分

析,如图 2所示。可以得出结论,评论中垃圾词的分布

是不对称的,分配的垃圾词的比例主要在 0.5以下。

图2摇垃圾评论词汇比例分布

通过上述统计分析的结果,在权重比例过滤模型

中设置了两个关键属性:每条垃圾评论中垃圾词汇的

比例;评论中包含的所有垃圾词权重的总和代表该评

论的垃圾评论权重。将变量 C(Si)定义为句子 Si中

垃圾词的总和,变量 P为垃圾词的比例。句子 Si的垃

圾评论范围计算如下:

SW(Si)=移

i = 1

(SW(Wi)) (5)

P(Si)=C(Si)

length(Si)(6)

根据已知豆瓣评论的特点,可以合理推理句子

Si,如下:

(1)如果 P(Si)和SW(Si)的值都很小,Si可能不

是垃圾评论;

(2)如果 P(Si)的值很小且 SW(Si)的值很大,Si

是垃圾评论;

(3)如果 P(Si)的值很大且 SW(Si)的值很小,Si

可能不是垃圾评论;

(4)如果 P(Si)和SW(Si)的值都很大,Si是垃圾

评论。

为了得到 P(Si)和SW(Si)的阈值,从评论数量

前十的图书的评论中随机抽取 1 000 条正常评论和

1 000条垃圾评论。根据基本垃圾评论词典计算每个

·011·摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇计算机技术与发展摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第29 卷

评论的 SW 和P的值。SW 和P的分布如图 3所示。

图3摇正常评论垃圾评论权重-比例分布

从图 3可明确看出,SW 和P的阈值可以确定为

1.0和0.3。评估垃圾评论的标准总结如下:

对于短评论 Si,如果 SW(Si) <0.5且P(Si) 臆

0郾 6, 则其为正常评论,否则该评论被视为垃圾评论;

对于长评论 Si,如果 SW(Si) <1.0且P(Si) 臆 0.3,则

其为正常评论,否则该评论被视为垃圾评论。

3摇实验结果及分析

为了评估所提出的模型和垃圾评论词典的性能,

进行了如下两个相关实验:

(1) 从评论数最多的图书的评论中识别垃圾

评论。

(2)通过对评论数前一百的豆瓣图书随机抽样十

本书,对这些图书的评论进行随机抽样。

使用分类算法对实验结果进行测量,定义见表 1。

表1摇分类算法混淆矩阵

垃圾评论正常评论

检测为垃圾评论 a b

未被检测为垃圾评论 c d

摇摇其中,a表示正确分类为垃圾评论的评论数;b表

示错误归类为垃圾评论的正常评论数;c表示错误归

类为正常评论的垃圾评论数;d表示正确分类成正常

评论的评论数。

通过精确率 (P)和召回率(R)来衡量实验

结果:

P = a / (a + b) (7)

R = a / (a + c) (8)

F1是P和R的调和均值,将用它评估分类的总体

结果:

F1=2*P*R / (P + R) (9)

从评论数最多的图书的评论中识别垃圾评论:

选取了豆瓣图书《白夜行》的所有评论,将66 175

条评论数据作为输入文件。通过权重比例模型过滤这

些评论,经过统计分析,垃圾评论检测精度为 91.8%,

召回率为 82.5%,F1为86.9%,如图 4所示。

图4摇实验结果

从图 4可以得到,平均精确率为 85.4%,平均召

回率为 89.02%,平均 F1值为 87.12%。从这些结果

可知,通过权重比例模型识别垃圾评论得到了稳定的

精确率、召回率和 F1值。因此,文中方法可以有效地

检测垃圾评论并具有相对准确性。

目前还有很多研究人员在研究垃圾评论内容检测

问题,但由于选择了不同的数据集和垃圾评论特征,这

些研究论文中垃圾评论内容的定义各不相同。因此,

将这些结果与文中得到的结果进行比较是不合适的。

4摇结束语

文中对豆瓣图书评论进行了深入分析。为了更准

确有效地检测垃圾评论,从词语语义特征的新视角构

建了垃圾评论词典和图书特征词典,非常适合图书类

垃圾评论的检测。此外,将单个评论的垃圾评论词汇

权重和垃圾评论比例定义为权重比例过滤器模型中的

两个关键属性,以检测不同长度的垃圾评论。这两种

垃圾评论检测方法是文中研究的核心方法。在垃圾评

论检测实验中验证了该方法的有效性和准确性。

尽管所获得的结果对于豆瓣图书垃圾评论检测是

很理想的,但是可以通过许多可识别的区域来改进文

中的模型,同时可以分析用户的评论习惯,分析这些评

论用户的特征来进一步检测垃圾评论。通过考虑评论

与发表评论用户之间的关系,可以进一步提高垃圾评

论检测的精确率和召回率。下一步将在研究检测垃圾

评论的下一阶段引入更深层次的结构化特征并考虑用

户特征,以便考虑用户-垃圾评论组合关系等方面。

参考文献:

[1]摇单晓红,张晓月,刘晓燕,等.在线产品评论有用性识别方

法研究[J].北京工业大学学报:社会科学版,2018,18(5):

·111·

摇第11 期摇摇摇摇摇摇摇摇摇摇刘高军等:基于图书特征及词典的豆瓣图书垃圾评论识别

73-82.

[2]摇 LILLEBERG J,ZHU Yun,ZHANG Yanqing. Support vector

machines and word2vec for text classification with semantic

features[C]/ / IEEE 14th international conference on cogni鄄

tive informatics & cognitive computing. Beijing,China:

IEEE,2015:136-140.

[3]摇 BAI Xue,CHEN Fu,ZHAN Shaobin. A study on sentiment

computing and classification of Sina Weibo with word2vec

[C]/ / 2014 IEEE international congress on big data. Anchor鄄

age,AK,USA:IEEE,2014:358-363.

[4]摇 SU Zengcai,XU Hua,ZHANG Dongwen,et al. Chinese sen鄄

timent classification using a neural network tool—Word2vec

[C]/ / 2014 international conference on multisensor fusion

and information integration for intelligent systems. Beijing,

China:IEEE,2014:1-6.

[5]摇吴摇潇,王摇磊.基于购物领域词典扩建的评论情感研究

[J].计算机技术与发展,2017,27(7):194-199.

[6]摇 R魤DULESCU C,DINSOREANU M,POTOLEA R. Identifi鄄

cation of spam comments using natural language processing

techniques[C]/ / 2014 IEEE 10thinternational conference on

intelligent computer communication and processing. Cluj

Napoca,Romani:IEEE,2014:29-35.

[7] 摇 HU Xia,TANG Jiliang,ZHANG Yanchao,et al. Social

spammer detection in microblogging[C]/ / Twenty-third in鄄

ternational joint conference on artificial intelligence. Beijing,

China:AAAI Press,2013:2633-2639.

[8]摇李璐旸,秦摇兵,刘摇挺.虚假评论检测研究综述[J].计算

机学报,2018,41(4):946-968.

[9]摇龚摇安,费摇凡.基于多特征融合的评论文本情感分析

[J].计算机技术与发展,2018,28(8):91-95.

[10] MIKOLOV T,SUTSKEVER I,CHEN Kai,et al. Distributed

representations of words and phrases and their compositional鄄

ity[C]/ / Proceedings of the 26th international conference on

neural information processing systems. Lake Tahoe,Nevada:

Curran Associates Inc. ,2013:3111-3119.

[11] ZAHRAN M A,MAGOODA A,MAHGOUB A Y,et al.

Word representations in vector space and their applications

for arabic [C]/ / International conference on intelligent text

processing and computational linguistics. Cairo,Egypt:

Springer,2015:430-443.

[12] MIKOLOV T,YIH W,ZWEIG G. Linguistic regularities in

continuous space word representations[C]/ / Proceedings of

the 2013 conference of the North American chapter of the as鄄

sociation for computational linguistics:human language tech鄄

nologies. Atlanta,Georgia:[s. n. ],2013:746-751.

[13] 刘华春,王星捷.网络舆情信息提取技术研究与实现[J].

计算机技术与发展,2016,26(9):8-11.

[14] MORIN F,BENGIO Y. Hierarchical probabilistic neural net鄄

work language model[C]/ / Tenth international workshop on

artificial intelligence and statistics. The Savannah Hotel,Bar鄄

bados:[s. n. ],2005:246-252.

[15] 宋海霞,严摇馨,余正涛,等.基于自适应聚类的虚假评论

检测[J].南京大学学报:自然科学版,2013,49 (4):433 -

438.

[16] R魤DULESCU C,DINSOREANU M,POTOLEA R. Identifi鄄

cation of spam comments using natural language processing

techniques[C]/ / 2014 IEEE 10th international conference on

intelligent computer communication and processing. Cluj

Napoca,Romania:IEEE,2014:29-35.

[17] 张建华,翁摇鸣,李晓乐,等.基于依存句法和二叉树模型

的评价对象抽取 [J].计算机技术与发展,2016,26 (2):

52-55.

·211·摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇计算机技术与发展摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第29 卷

0 views·6 pages

基于图书特征及词典的豆瓣图书垃圾评论识别 PDF Free Download

基于图书特征及词典的豆瓣图书垃圾评论识别 PDF free Download. Think more deeply and widely.

Uploaded by ms_michael on 5/4/2026

100%