您的当前位置:首页正文

网络舆情监控算法研究与分析

来源:我们爱旅游
2019年第22期

. 科技管理研究Science and Technology Management Research2019 No. 22doi:10. 3969/j. issn. 1000 -7695. 2019. 22. 026网络舆情监控算法研究与分析谢卫红杨超波V,朱郁筱李忠顺蒋瞰阳'(1.广东工业大学管理学院;2.广东工业大学大数据战略研究院,广东广州510520;3.罗切斯特理工大学计算机科学与工程学院,美国纽约10041NY212)摘要:梳理现有的网络舆情监控算法,归纳为经典算法和拓展算法,分析算法的优缺点并对比常见算法的性能, 整理部分专家学者对这些监控算法的优化改进研究情况并分析其研究成果。从技术、管理和应用等3个角度评

价现有网络舆情监控算法的优化改进环节和取得的成效,并指出其存在的问题主要集中在只基于文本、针对单

一数据类型、没有考虑事件和用户的差异化特点和动态变化情况、缺乏综合监控体系思维和管理机制等方面。

进而从网络舆情的特点、发展规律、驱动因素、现有监控算法不足和监控效果期望等角度探讨未来网络舆情监

控算法的发展趋势。关键词:网络舆情;监控算法;文本分类;文本聚类;情感倾向中图分类号:C93

文献标志码:A 文章编号:1000-7695 (2019) 22-0197 -09Research and Analysis of Network Public Opinion Monitoring AlgorithmsXie Weihong1 2 , Yang Chaobo1 2, Zhu Yuxiao1,2, Li Zhongshun1,2 , Jiang Kanyang3(1. School of Management, Guangdong University of Technology ;2. Institute of Big Data Strategic Research, Guangdong University of Technology, Guangzhou 510520, China ;3. College of Computer Science and Engineering, Rochester Institute of Technology, New York 10041NY212, USA)Abstract: This paper combs the current network public opinion monitoring algorithms, summarizes them into classical al・

gorithms and extended algorithms, analyzes the advantages and disadvantages of these algorithms, also compares the capa­bilities of famous algorithms, arranges the research situation of some experts and scholars on the optimization and improve­ment of these monitoring algorithms and analyzes their research results. It evaluates the optimization and improvements of

these monitoring algorithms from the perspectives of technology, management and application. It is pointed out that the problems are mainly based on text, aiming at a single data type, without considering the differential characteristics and dy­

namic changes of events and users, and lacking comprehensive monitoring system thinking and management mechanism.

Next, the development trend of network public opinion monitoring algorithm in the future is discussed from the point of view of the characteristics, development law and driving factors of network public opinion, the deficiencies of existing monitoring

algorithms, and the expectation of monitoring effect.Key words: network public opinion ; monitoring algorithm ; text classification ; text clustering ; emotional inclination舆情是一定时期内公众对现实社会中的各种现 象、问题所表达的思想、心理、意见和情绪所表现 的集中反映⑷。截至2018年6月,我国网民数已达

处理的需求的。发生群体性事件时,网络上往往会

充斥着大量虚假信息,部分不知情的网民转发后, 煽动人们的负面情绪,有可能导致事态恶化⑶。如

到& 02亿人,互联网普及率为57. 7%⑵。网络舆情 “红黄蓝幼儿园虐童事件” “百日破疫苗事件”等公

涉及海量且类别繁多的互联网信息数据,其传播速 共舆情事件,往往借力网络媒体,特别是自媒体的

度快、范围广、互动性强和影响力大。如果仅仅依

靠人工进行分析和分类是无法实现实时发现并及时

收稿日期:2018-12-16,修回日期:2019 - 04-10传播速度和广度导致重大负面影响。网络舆情监控的基本任务是从海量网络语料中

基金项目:国家自然科学基金项目“大数据背景下的网络隐私顾虑影响因素及行为效应研究:基于多维发展理论视角”(71672043)198谢卫红等:网络舆情监控算法研究与分析快速识别新话题、热点话题和突发事件等⑷。网络

为网络舆情热点指网民思想情绪和群众利益诉求在

舆情监控需要解决的首要问题是高效地从海量数据 网上的集中反映,是网民热切关注的聚焦点,是民

中发现网络舆情。本文对有关网络舆情监控算法的 众议论的集中点,反映出一个时期网民的所思所想。

文献进行梳理,明晰网络舆情监控算法的进展状况

因此,在某一个时间段内,达到一定数量的网民使

和存在问题,并探讨其发展方向和展望。用互联网媒介来表达和传播其对于某一共同社会事

1网络舆情监控经典算法研究现状件的认知、意见和情感,就形成了网络舆情。1.2文本分类算法研究现状1. 1 网络舆情定义舆情发现是网络舆情监控的一项重点工作,关 目前学术界对于网络舆情的认识还没有达成一 键是精准的舆情分类。舆情分类是把网络上关于网

致,没有形成共识的定义。游丹丹等⑸认为网络舆

民的认知、意见和情感的文本信息进行分类,主要

情是网民因各类事件推动刺激而借助互联网平台传

用到文本分类和聚类算法。播关于该社会现象持有的不同意见、态度、情绪和 文本分类算法是一种有指导的机器学习方法,

行为倾向的总和。谭雪皓等⑹认为网络舆情是在某

算法过程是针对数据集的特点来构造分类的模型或 些网络空间内网民的观点、建议及对各种社会现象 函数,把待检测数据样本划分到设定类别集合中的 与问题的感受构成的集合。邓福成等⑴认为网络舆

某一个类别。单一分类算法有决策树、贝叶斯、人

情是网民在网络公共空间上通过网络语言或其他方

工神经网络、K-近邻、基于关联规则分类和支持 式,对自己所关注的话题如公共事务、公共任务、 向量机等貯-⑷;集成学习算法有Bagging和Boosting

价值观念、政策环境和历史评价等,公开表达自己 等[15-'6]o文本分类算法的优缺点如表1所示。具有强烈冲击力和影响力的公共性意见。柳虹⑻认

表1文本分类算法的优缺点文本分类算法优点缺点决策树

生成模式简单,分类速度快、精度高对有时间顺序的数据需进行很多预处理,当类别太多时 错误可能增加较快

贝叶斯 方法简单,分类准确率高,速度快

假设属性间是相互独立的,但在实际中,该假设往往很 难成立,严重影响分类的准确率人工神经网络可自动聚类,基本不受孤立点噪声干扰

生成数量巨大的神经元,易过度学习,将数据映射到低 维空间可能产生畸变单一分类不需要特征选取和训练,容易处理较多类别,适用于基

需先存储样本,当训练样本或测试样本迅速增加,计算 K-近邻于统计的模式识别,对于未知和非正态分布的分类准确

量迅速增加且计算速度减慢。分类效果取决于初始聚类 率较高中心的选择,往往只得到局部最优解

基于关联规则分类分类预测准确度较高资源消耗大,规则剪枝难,分类模型较复杂支持向量机训练集很少,计算量小依赖于分类面附近的正例和反例位置,训练速度慢、算

法较复杂Bagging提高单一分类器的分类效果,实现较简单增大了计算量,效率降低集成学习Boosting提高弱分类算法的识别率运行速度慢部分研究者在文本分类算法的优化改进方面开 案,算法核心是层次式分解待检测的数据集合,不

展大量研究工作[1?-24],并取得一些不错的成果。断迭代运算,当数据集合满足预设条件时即为所求 1.3 文本聚类算法研究现状的聚类结果。代表算法有ChameleonRock、Birch 文本聚类属于无监督的机器学习方法,不需要

和 Cure 等[25 ' 28]O预设文本类别和训练数据集,算法核心是将文本划

(2) 增量法,是先从待检测的数据集合中选取 分为若干个类别,使得在同一个类别中的文本内容

部分数据作为初始话题类别,然后将剩余数据分别

相似度较高,而不同类别的文本内容相似度较低。

与初始话题进行对比,如果两者的相似度大于预设 有如下6种常见的文本聚类算法(文本聚类算法的

的阀值则把该数据划分到该话题中,否则作为一个 优缺点如表2所示)。新话题类别。代表算法是Single-pass[29]o(1)层次法,有自下向上和自上向下两种方

(3) 划分法,是一种不断迭代寻找更优方案的

谢卫红等:网络舆情监控算法研究与分析199表2 (续)方法。先设置一个初始分组,然后通过反复迭代来 改变分组情况,目的是使每一次改进的分组效果都

比前一次好。代表算法有K - prototypess K - means、 K - medoids 和 Ciarans 等㈤-口]。(4) 基于模型的方法,预先假设聚类的类别有 特定的模型,然后寻找符合该模型相关条件的数据

文本聚类算法 优点缺点改进了 CLA RA的聚类质

Ciarans计算效率较低,对数据输 人J帧序敏感,只能聚类凸

量,拓展了数据处理量的 伸缩范围状或球型边界对于偏斜的输入数据可能

CobWeb集合。相关模型可以为数据的密度分布函数或其他 函数,目标数据集预设为由一系列概率分布所决定 的。代表算法有 CobWeb、Fish search、AutoClass 和 Som[34 - 37]O(5) 基于网格的方法,将数据集合映射到空间 并划分为若干个单元网格,然后以单元为对象进行

智能优化类别的数量导致时间和空间复杂性剧 烈变化Fish search模式简便,动态搜索,计 算量小只使用简单的字符串匹 配,难反映整体情况;需 预设参数;适应性较差不需预先给定数据类别,

AutoClass可处理连续型或离散型数

需主观决定数据的群数,运算,特点是只与网格数有关,而与数据集合中的

据,可处理缺值数据Som时效性较低缺乏具体的目标函数,不记录数无关,具有处理速度快的优点。代表算法有

Sting、Clique、OptiGrid 和 WaveCluster 等①-“打(6) 基于密度的方法,先预设一个阈值,然后 将密度大过该阀值的数据点,划分到与其最近的类

有利于聚类结果的解释和可视化保证收敛Sting有利于并行处理和增量更质量取决于网格结构的最底层的粒度新,时间复杂度是0 (n)只需为非空单元创建网别,其克服了基于距离算法只能发现“类图形”聚 类的缺点。代表算法有Denclue、Dbscan和 Optics 等⑷*。表2文本聚类算法的优缺点文本聚类算法ChameleonClique非常依赖密度阈值,对高维数据的效果很差格,效率较高适用任何形状的聚类,效

OptiGrid率高对低维数据非常有效,可对网格的划分不均匀优点缺点时间复杂度高,有可能达到 0 (n♦ n)WaveCluster时间和空间复杂度随数据维数呈指数增长检测任意形状的聚类发现高质量的任意形状的簇Denclue抗噪声较好,能处理任意形状和大小的簇不适合高维数据和密度变化太大适用于混合型数据,对异Rock

常数据的抗干扰性好,可处理大型数据集基于领域专家的直觉Dbscan可在有噪声的数据中发现任意形状的聚类需用户预设初始参数,聚 类结果对参数取值非常敏 感,时间复杂度为0 (卫)聚类结果可能不同于真实BirchOptics聚类结果对初始参数的取值不敏感难维护核心点的直接可达点的有序列表节约内存,聚类速度快, 可识别噪音点

类别的分布,对高维特征

数据的聚类效果不好,数 据集不是凸状的分布簇则 聚类效果不好部分研究者在文本聚类算法的优化改进方面开 展大量研究工作⑷一刘,并取得较好的成果。2网络舆情监控拓展算法研究现状Cure识别形状复杂、大小不一 的聚类,过滤孤立点聚类结果受参数设置的影 响大,对分布特殊的类的

聚类效果不好算法思想简单、运行速度Single - Pass2. 1情感倾向监控算法研究现状舆情导向是网络舆情监控的一个重要目的,负

面情绪的消息往往会导致严重的负面社会影响。要

快、时间复杂度随文本数 执行结果依赖语料被处理

量成线性增长,具有良好 的聚类精度的顺序,聚类结果精度差K - prototypes能处理混合型数据事先确定聚簇数、阈值和

聚簇中心事先指定聚类簇的个数,K — means效率高,实现简单,适合常常终止于局部最优,对噪声和异常数据很敏感, 只适用于数值属性聚类大规模数据集引导良性的网络舆论氛围,需要及时获知网民对于 当前舆情的情绪状况、对某个事件的观点和态度等, 因此非常有必要对话题的情感倾向进行研究。情感 倾向分析,指检测、分析和挖掘能表达作者的情感、 观点和偏好的带有主观色彩的文本数据。常见的基 于情感词典和基于机器学习两种分析方法。基于情 感词典的算法,先通过人工选择建立专用情感词库,

K - medoids对属性类型没有局限性, 鲁棒性强时间复杂度较高,容易陷

将给定的词语找到词库中对应的词语进行情感倾向

入局部最优值判断。200谢卫红等:网络舆情监控算法研究与分析从研究的文本粒度来看,情感倾向分析主要包

括基于词语、语句和篇章的三类研究方法。多样性的语言表达形式,使得相同的词语在不

同的语境中表达的情感倾向不一样。整个语句比单

个词组更能表达作者的情感倾向。基于语句的情感

分析,首先从文本中找出体现作者主观性的语句,

然后判别其褒贬性,并分析情感倾向的程度。基于篇章的情感倾向分析,类似于文本分类问

题,对于所有文章分为褒、贬两大类,一般应用于 主题单一、倾向明确的文章⑴〕。部分研究者在情感倾向监控算法的优化改进方 面做了大量研究工作[54 '58],并取得较好的成果。

2.2情感倾向偏差监控算法研究现状近年来,研究发现网民的情感倾向偏差给网络

舆情监控带来了一定的判断和监控困难。人群倾向

性偏差问题越来越受到关注。研究不同领域的人群 情感倾向偏差问题,是解决舆情人群主观色彩差异

的重点㈤】。针对主观色彩偏差问题,主要有细粒度

分析法-、挖掘新模式二次调用和情感词典逻辑结

合等方法[6°-62]o部分研究者对情感倾向偏差监控算 法做了很多优化改进研究工作[63 -67],并取得不错的

效果。情感极性分类方法存在的问题包括:(1)情感 词库往往只适用于某一个特定领域,而不能在多种

不同领域中通用;(2)情感词的词性一般只分积极 和消极两种,没考虑到情感词在不同语境中的影响

程度;(3)网络文本具有即兴性、结构多变、语法 不规则等特点,以及网络用语更新快,大大降低传

统机器学习方法的效率和监控效果。2.3综合智能监控算法研究现状网络舆情监测的任务,一般具有动态性、不确

定性和实时性等特点。可使用多代理分布式计算方

式构建服务云平台,将各种新技术和方法融合在一

起,通过多代理将各个代理组成联盟,提高监测监

控能力。智能聚合系统,涵盖微博、BBS和其他社交网 站,使用元搜索引擎辅助监测重点对象,聚合全网

的舆情信息副本和衍生版本,实现全网信息匹配,

大大提高宏观把握舆情走势的效果。部分研究者对综合智能监控算法做了很多优化 研究工作[68 -73],并取得优异的成果。2.4网络舆情预测算法研究现状网络舆情预测算法主要分为基于传统统计学和 基于智能机器的预测算法。基于自回归算法、指数 平滑算法、ARIMA算法以及移动平均算法,都属于

基于传统统计学的预测算法⑸。基于智能机器算法的预测算法,结合人工智能

技术和时间序列进行预测。相关的理论基础主要涉

及贝叶斯网络、支持向量机、BP神经网络、径向基 函数神经网络、马尔科夫链理论、灰色理论、混沌 理论、EM聚类以及群体智能算法等。部分研究者在网络舆情预测的优化改进方面做 了大量研究工作gm],并取得不错的效果。微博是近年新兴起的、广受欢迎的网络信息交

流平台。仅仅新浪微博一个平台,2018年中国用户

数就已超过3. 4亿人。网民可使用“转发”和“评 论”功能对微博用户发布的消息进行传播。微博的

转发预测对网络舆情监控具有重大应用价值。部分

研究者对微博转发机制和基于微博的网络舆情预测 算法做了大量的优化改进[79-851 ,并取得可喜的研究 成果。3分析评价主要从技术、管理和应用等3个角度分析评价

网络舆情监控算法的发展情况和存在问题。3. 1 技术方面的分析评价从1996年美国提出TDT项目开始,专家学者开 始投入到网络舆情监控的研究中,并从文本分类算

法、文本聚类算法这两个角度聚焦舆情发现,提出 多种经典算法。这些经典算法各有优缺点,但并没

有一种经典算法能较全面的适应各种不同的网络舆 情特点而令其在监控准确率和效率方面具有较好的

监控效果。有部分学者针对这些经典算法的缺点提 出一些优化和改进,也有部分学者将若干种经典算 法进行组合,既利用这些算法的优点也互补各自的

缺点。虽然取得不错的效果,但依然解决不了经典 算法的重要缺点,那就是没有考虑到文本包含的情

感®(向问题,导致网络舆情监控的效果和效率较低。随着研究的深入,学者发现通过文本的情感倾

向分析更容易发现网络舆情,监控效果更好。一些 专家学者投入到文本情感倾向分析的研究中,并从

词语、语句和篇章的角度全方位探索情感倾向与网 络舆情的关系,使监控的效果和效率有所提高。但

在研究过程中发现,不同人群之间存在情感倾向性

偏差问题,导致监控过程中出现误判,进而影响监

控效果。这个问题迅速引起专家学者的关注并开始

分析研究,专家学者们提出一些解决方法并展示了 相关研究成果。情感倾向分析,对于负面网络舆情

监控更有效,可以提前发现潜在的网络舆情,大幅 提高监控效率。情感倾向监控算法和情感倾向偏差

谢卫红等:网络舆情监控算法研究与分析201监控算法,需要对先对用户的情感学习分析,进行

不同舆情的发展趋势可能有较大差别以及用户情感、 经验积累才能分析判断,对于新用户就无能为力了。态度等主观因素,导致预测达不到预期效果。网络舆情监控算法的时间复杂度一般较高,至

由于用户在平台上的言行只是其生活的一小部

少为0 (;?),个别算法甚至为0 (nn),所以时效

分,并不能真实全面的反映其思想状态和行为特点。 性往往较差。随着云计算技术的发展,一些专家学

现有的监控算法仅从用户在平台上的过往行为和情 者提出搭建云平台的综合智能监控算法,建立代理

感、态度来分析判断用户的行为特征和情感倾向,

联盟,通过分布式计算提高监控效率。不少研究成

进而对网络舆情进行监控和预测,明显是不够准确 果表明,该类算法的监控效果和效率得到明显提升。 的,导致监控和预测效果得不到根本上的提升。少数专家学者研究跨平台的监控算法,有利于提高

对于新用户,基于统计学的监控算法束手无策, 监控的准确度,但目前能同时监测的平台数较少, 基于机器学习的监控算法效果甚微。所以对于新用

还做不到全网络范围内的监控。户比例较高的平台,情感倾向监控算法和预测算法

网络舆情预测,是舆情监控的重要价值体现。 的效果都不太理想。专家学者从基于传统统计学和基于智能机器的角度

目前的监控算法,认为舆情的形成主要是因为

提岀一些预测算法,并通过实验验证了各种算法的 事件本身,是由事件推动的,而不是因为用户个体。

预测精度和准确率,均取得不错的效果。鉴于微博

经典算法以舆情客体作为研究对象,拓展算法虽然

比其他在线社交平台的用户数更多、活跃度更高, 考虑了用户的主观因素,但并没有深入研究用户的

一些专家学者特别关注微博的转发预测,根据微博

内心世界和变化情况,仍然是把舆情作为主因,把 的特点开展研究,也取得一些研究成果。用户作为次因。这种观点只适用于一般网络舆情的 网络用语呈现较大随意性、碎片化和语言非结 情况,但并不适用于负面网络舆情,因为负面网络

构化等特点,现实中的数据多是混合数据类型的数

舆情往往是由用户个体推动形成的。据,而现有的舆情监控算法基本都是只针对较单一

不同用户的世界观和价值观往往是不同的,对 类型的数据,影响舆情发现的准确率和舆情监控效 于同一事件的观点和看法也很可能不一样,因此对

果。目前还很少涵盖了从文本爬取、舆情发现和监

于某一网络事件的态度和行为差别也很大。因此需

控到预测的整套解决方案。要深入研究用户的思想状态才能对其即将发生的行 无论是经典算法、拓展算法、情感倾向分析算

为作出科学判断,从而提高舆情监控效果。法、综合智能监控算法还是舆情预测算法,几乎都 现有的监控算法,几乎都是一致地面向所有的 是以文本为研究对象,甚少有关于音频、视频和图

事件和用户,而没有考虑到不同事件形成舆情的可

片的监控算法。由于现实中往往是文本、图片,甚

能性不同、不同用户对同一个事件的关注度和情感 至音频和视频同时存在,仅仅是针对文本进行监控,

倾向不同,导致监控效率较低、预测效果欠理想。很可能达不到预期的监控效果。经典算法以事件在某一时刻的状态作为监控对

3. 2 管理方面的分析评价象,没有考虑到事件是动态变化的,向好或向坏的 经典监控算法仅仅是以文本中的词组出现频度

状态发展很可能导致舆情发生的状况不同。同时,

等客观因素为研究对象,没有考虑用户的主观因素

拓展算法仅以用户的过去行为和情感作为判断依据,

(例如情感倾向),导致监控效果较差。忽略用户的动态变化情况,没有及时更新变化信息,

情感倾向监控算法考虑了用户的态度、观点、

可能导致误判,进而影响监控效果。行为特征和情感倾向等主观因素,监控效果得到较 3.3应用方面的分析评价大提高。但没有考虑到用户的主观因素可能会随着

现有的网络舆情监控几乎都是针对基于文本的

时间变迁而发生变化,缺乏动态监测机制,可能造 社交平台,甚少针对图片、音频、视频社交平台。成效果不理想。虽然有专家学者专门针对BBS论坛、微博进行

综合智能监控算法,考虑到跨平台的舆情传播

舆情监控研究,但鲜有针对微信、Twitter等新兴社 情况,又借助云计算能力,提升了监控效率和监控

交平台的舆情监控研究。效果。目前的监控算法只关注用户是平台上的一员, 预测算法从网络舆情发展的统计规律和用户的

而忽视他更是社会上的一员。用户在生活中的生理、

网络关系、行为特征等客观因素出发,对网络舆情 心理、人际关系变化,很可能会导致其言行举止出

进行预测,虽然取得一定成果,但由于没有考虑到 现相应变化。但网络舆情监控系统并没有获得这方

202谢卫红等:网络舆情监控算法研究与分析面讯息的实时更新,可能造成误判,从而影响监控

效果。现有的监控算法几乎都是从技术角度考虑如何

提高监控效果、提升监控效率,甚少从管理角度考

虑应该建立怎样的管理机制来提升监控效能。目前

系统化、成体系的网络舆情监控应用较少,应用经 验还需较长时间的积累。4发展展望本文基于网络舆情的特点,综合各种网络舆情

监控算法的优缺点和发展现状,提岀未来网络舆情 监控算法的发展趋势和展望。(1) 进一步优化和完善基于文本的经典监控算 法,同时探索基于音频、视频和图片等多媒体的经

典监控算法。未来将会是应用推动研究的发展,基

于多媒体的经典监控算法将引起更多专家学者的关

注和研究。(2) 经典算法的组合研究,将得到更广泛的发 展。各种经典算法各有优缺点,组合使用可取长补

短,提升监控效果和监控效率。同时,目前大多数

经典算法都是只适用于某一种数据类型,组合使用

可扩大经典算法的适用范围,使其应用到更多场景。(3) 更倾向于充分利用闲置网络资源,搭建云 计算平台进行分布式监控,进一步提升监控效果和 监控效率。网络舆情监控既要求准确性,更要求时

效性。对于海量用户和巨量数据,单台计算设备几 乎无法按时完成,因此基于云计算的监控算法必然 是网络舆情监控算法的发展趋势。(4) 将更注重用户主观因素的影响。在应用实 践中发现,对于同一个事件,不同网络平台的用户 反应情况不一样,有些网络平台迅速出现网络舆情,

但有些网络平台并没有出现网络舆情,甚至连关注 该事件的用户都没有。用户的主观因素在网络舆情 的形成中起到重要作用,这将引起更多专家学者的

深入研究,并在监控算法中考虑更多用户主观因素

的影响。(5) 很可能发生逻辑观念转变,主流观念将从 由事件推动转变为由用户推动,进而兴起基于用户

的经典监控算法和拓展算法。“思想指导行动”,用

户是否转发、如何评论、发表乐观观点还是悲观观 点,主要由其思想观念决定,而其思想观念往往受 到其所处的时代背景、文化环境、个人经历和人际 关系等因素的影响,因此,基于用户的监控算法需

融入历史学、社会学、心理学和行为学等多门学科 的知识。(6) 舆情事件和用户情感的动态变化将获得更 多关注。网络舆情的产生、发展和消失,有其内在

发展规律,每个阶段的发生和变化,与事件和用户

情感的变化有密切关系,因此,监控算法将更关注

事件和用户情感的动态变化,令监控效果进一步

提升。(7) 跨平台的舆情监控算法将成为主要的研究 方向。目前的主要在线社交平台包括微信、微博、

Twitter、BBS和SNS等,虽然已有少数专家学者研 究跨平台的监控算法,但效果还不够理想。只有全

网络范围内的跨平台监控,才能真实反应舆情发展 和变化情况,最终实现监控和预测效果的提高。从 应用推动研究发展的角度看,跨平台的监控算法必

将成为未来的发展主流。(8) 深度理解网络舆情的差异化特点,让监控 算法的效率和效果得到进一步提升。深入研究不同

网络舆情的特点,分析各种网络舆情的产生原因、 形成机理、影响因素和发展趋势等,让监控算法更

智能化,不断提高监控效果和监控效率、提升预测 精度和准确率。(9) 细分网络舆情监控的种类和用户群,细分 领域的监控算法将百花齐放。不同领域的网络舆情

特点不完全相同,如工业舆情、文化舆情、饮食舆

情和公共事务舆情等的细分领域,将让监控算法更

短小精干、监控效果效率更高。不同用户对同一个

事件的关注度和情感倾向不同,研究乐观、中庸和

悲观等不同细分用户群的特点,将让监控算法更精

准。负面网络舆情监控的研究将引起更多专家学者 的关注和研究。(10) 综合的监控体系将得到更多关注和发展。 事件的产生、变化和消失,除了事件本身的发展规

律外,还在很大程度上受到政府、利益集团、媒体

和网民等相关因素的主观行为影响。除了监控事件

本身的变化情况外,还需要监控以上相关因素的变 化情况。仅从平台上的行为和情感倾向分析,无法

准确、全面地把握用户的思想状态和行为特征,需

要从更广泛的范围进行分析,例如从生活中的工作 职务、人际关系和财产收入等方面的变化情况动态

捕捉用户的最新思想状态,进而判断用户在平台上

的情感倾向和言行变化,从而对网络舆情作岀更精

确的判断和预测。综合监控体系,将让监控算法对

新用户更加得心应手。5结论梳理了现有的网络舆情监控算法,将其归纳为

谢卫红等:网络舆情监控算法研究与分析203经典算法和拓展算法,其中经典算法包括文本分类 International Journal of Theoretical Physics, 2017 , 56 ( 11 ) : 3496

算法和文本聚类算法,拓展算法包括情感倾向监控

-3507.算法、情感倾向偏差监控算法、综合智能监控算法

[13] 刘军煜,贾修一.一种利用关联规则挖掘的多标记分类算法[J].

和预测算法。分析这些算法的优缺点和常见算法的

软件学报,2017, 8(12): 63 -66.[14] ALADEEMY M, TUTUN S, KHASAWNEH T. A new hybrid ap­

性能对比,整理了部分专家学者对这些算法的优化 proach for feature selection and support vector machine model selec­改进研究情况并对其研究成果进行分析。tion based on self - adaptive cohort intelligence [J]. Expert Systems

从技术、管理和应用等3个角度分析现有网络 with Applications, 2017, 88 : 118 - 131.舆情监控算法,客观评价其优化改进环节和取得的

[15 ] VISCHIA P, DORIGO T. The inverse bagging algorithm: anomaly de­

成效,并指出不足之处。现有网络舆情监控算法存 tection by inverse bootstrap aggregating [ C ] //IEEE. 12th Conference

on Quark Confinement and the Hadron Spectrum. Thessaloniki: IEEE, 在的问题主要集中在只基于文本、针对单一数据类

2017, 137: 381 -387.型、没有考虑事件和用户的差异化特点和动态变化 [16] MENEZES S, LISKA R, CIRILLO A. Data classification with binary

情况、缺乏综合监控体系思维和管理机制等方面。

response through the Boosting algorithm and logistic regression [ J ]. 进而从网络舆情的特点、发展规律、驱动因素、现 Expert Systems With Applications, 2017 , 69 : 62 -73.有监控算法不足和监控效果期望等角度探讨网络舆

[17] 毕佳佳,张晶.基于关系选择的多关系朴素贝叶斯分类[J]•计

算机工程,2016, 42(5): 218 -223.情监控算法的发展趋势,指出其发展方向应该是基

[18] 张杰,陈怀新.基于归一化词频贝叶斯模型的文本分类方法[J].

于云平台、针对多媒体和面向全网络范围内的细分 计算机工程与设计,2016, 37(3): 799 -802.群体的动态综合监控体系。[19] 邸鹏,段利国.一种新型朴素贝叶斯文本分类算法[J].数据采

集与处理,2014, 29(1): 71 -75.[20] 蒋芸,陈娜,明利特,等.基于Bagging的概率神经网络集成分类

参考文献:算法[J].计算机科学,2013, 40(5): 242-246.[1 ] DOHERTY 0, KIERAN C. Deliberative public opinion: development

[21] 李文进,熊小峰,毛伊敏.不确定性数据的超球支持向量机分类

of a social construct [ J ]. History of the Human Sciences, 2017 , 30方法[J].计算机工程与设计,2015, 36(7): 1778 -1783.(4) : 124-145.[22] 陶树平,屠颖.关联规则和分类规则挖掘算法的改进与实现[J].

[2] 中国互联网络信息中心.第42次《中国互联网络发展状况统计报

计算机工程,2003, 29(15) : 100-101, 187.告》[R/OL]. (2018 -08 -20) [2018 - 12 -01]. http://www. cac.

[23] 姚明海,赵连朋,刘维学.基于特征选择的Bagging分类算法研

gov. cn/2018 -08/20/c_l 123296882. htm.究[J]•计算机技术与发展,2014 , 24(4): 103 -106.[3] 曾子明,万品玉.融合演化特征的公共安全事件微博情感分析

[24] 王世勋,潘鹏,陈灯,等.一种自适应的多类Boosting分类算法

[J]•情报科学,2018, 5(1): 73 -82.[J].计算机科学,2017, 44(7): 185 -190.[4] 黄克敏,先科,李帅,等.网络舆情热点新闻发现技术研究[J].

[25] GUPTA U, PATIL N. Recommender system based on hierarchical

网络安全技术与应用,2017(6) : 151 -152.clustering algorithm Chameleon [ C J//IEEE. IEEE International Ad­

[5] 游丹丹,陈福集•我国网络舆情预测研究综述[J].情报科学,

vance Computing Conference ( IACC 2015 ) . Santiago: IEEE, 2015 : 2016, 34(12): 156-160.1006 -1010.[6] 谭雪皓,涂艳,马哲坤.网络舆情治理研究综述[J].电子政务,

[26] LIU J, ZHAO X D, XU Z H. Identification of rock discontinuity sets

2016(8): 64-74.based on a modified affinity propagation algorithm [ J ] . International [7] 邓福成,尹武松,陆和建.近10年我国基于网络舆情分析的政府

Journal of Rock Mechanics and Mining Sciences, 2017,94: 32 -42.决策机制研究综述[J].图书馆学研究,2014(16): 7-12.[27] AARUM I, DEVLE H, EKEBERG D. The effect of flash pyrolysis

[8] 柳虹.网络热点发现研究[J].科技通报,2011,27(3):421

temperature on compositional variability of pyrolyzates from birch lig­-425.nin [J ]. Journal of Analytical and Applied Pyrolysis, 2017 , 127 : 211 [9] BOUKHRIS I, ELOUEDI Z, AJABI M. Toward intrusion detection u-

-222.sing belief decision trees for big data [J] . Knowledge and Information

[28JLAKSONO T, PURWANTO Y, NOVIANTY A. DDoS detection using

Systems, 2017, 53(3) : 671 -698.CURE clustering algorithm with outlier removal clustering for handling

[10] NETTI K, RADHIKA Y. A hybrid prediction algorithm using naive

outliers [ C]//IEEE. International Conference on Control, Electronics, Bayes classifier for improving accuracy in classifying LISS III data

Renewable Energy and Communications ( ICCEREC ). Bandung: [J]. Journal of Indian Geophysical Union, 2017, 21 (4 ) : 271

IEEE,2015:12 -18.- 276.[29] LI F, DAI L L, JIANG Z Y. Single - Pass clustering algorithm based

[11] SATU S, AKTER T, UDDIN J. Performance analysis of classifying lo­

on storm[ C ] //IEEE. International Conference on Control Engineer­

calization sites of protein using data mining techniques and artificial ing and Artificial Intelligence ( CCEAI ). Kuala Lumpur: IEEE, neural networks [ C]//IEEE. 2017 IEEE International Conference on 2017, 806: 623 -629.Electrical, Computer and Communication Technologies. Coimbatore: [30] KIM B. A fast K - prototypes algorithm using partial distance compu­

IEEE,2017: 860 -865.tation [J]. Symmetry - Basel, 2017, 9(4) : 316 -324.[12] RUAN Y, XUE X L, LIU H ,et al. Quantum algorithm for K - nearest

[31] WANGCHAMHAN T, CHIEWCHANWATTANA S, SUNAT K. Effi­

neighbors classification based on the metric of hamming distancef J]. cient algorithms based on the K 一 means and chaotic league champion­

204谢卫红等:网络舆情监控算法研究与分析的K - medoids 聚类[J].计算机科学,2017, 44 (3): 23 -

ship algorithm for numeric, categorical, and mixed - type data cluste-

Hng[J]. Expert Systems with Applications, 2017, 90 : 146 - 167.[32JLACKO D, HUYSMANS T, VLEUGELS J. Product sizing with 3D

anthropometry and K - medoids clustering [ J ]. Computer 一 Aided Design, 2017, 91 : 60-74.26, 58.[48] 赵晓楠,马晨辰.基于Single - Pass的军事网络舆情监控系统设

计[J].电子设计工程,2017(6): 233 -236.[49] 杨长春,周猛,叶施仁,等.基于改进CURE算法的微博热点话

题发现[J].计算机仿真,2013, 30(11): 383 -387.[33] ICHWANUL K, HUDA F. Spatial clustering for determining rescue

shelter of flood disaster in south Bandung using Ciarans algorithm with

[50] 高长元,王海晶,王京.基于改进CURE算法的不确定性移动用

户数据聚类[J].计算机工程与科学,2016, 38(4): 768 -774.polygon dissimilarity function [ C ] //IEEE. 12th International Confer­

ence on Mathematics, Statistics, and Their Applications (ICMSA). Singapore: IEEE, 2016: 70 -75.[51] 朱炸行,李艳玲,杨献文.一种改进CHAMELEON算法的聚类算

法 COCK[J].微电子学与计算机,2015, 32(12): 173 -176.[34] KHROUF 0, KHROUF K, FEKI J. CobWeb multidimensional mod­

el: visualizing OLAP query results using tag - cloud operators [ C ]//

[52] 李阳,马骊,樊锁海.基于动态近邻的DBSCAN算法[J].计算

机工程与应用,2016, 52(20): 80 -85.ANA MARIA MADUREIRA. Intelligent Systems Design and Applica­tions (ISDA 2016). Porto: Springer, 2017, 557: 995 - 1004.[53] 毛天铭,关鹏,皮德常.一种改进拓扑势的意见领袖挖掘算法

[J]•计算机科学,2016, 43(6): 194 - 198.[35] MONTEIRO B, CARNEIRO M, LIMA B. Improved search mecha­[54] 张艳丰,李贺,彭丽徽.基于直觉模糊推理的网络舆情监测预警

评估方法研究[J]•情报杂志,2017, 13(10): 122 -126.nisms for the fish school search algorithm L C ]// ANA MARIA MA­

DUREIRA. Intelligent Systems Design and Applications ( ISDA 2016). Porto: Springer, 2017, 557: 362 -371.[36] YAN T S, ZHANG Y X, ZHAO Y H, et al. Exploration of SDSS

stellar database by AutoClass[ J] . Science China( Physics, Mechanics

[55] 邓楠,余本功.基于情感词向量和BLSTM的评论文本情感倾向

分析[J]•计算机应用研究,2017, 8(10): 194 - 196.[56] 兰天,郭躬德.基于词共现和情感元素的突发话题检测算法[J].

计算机系统应用,2016(8): 101-108.& Astronomy) , 2011,54(9) : 1717 - 1726.[37] TAKEMURA Y, YOKOYAMA M, OMORI S,et al. Development of

SOM algorithm for relationship between roles and individual's role in

[57] 曹玖新,陈高君,吴江林,等.基于多维特征分析的社交网络意

见领袖挖掘[J].电子学报,2016(4): 898 -905.[58] 张朝龙,许源平,郑皎凌.基于协同过滤和文本相似性的Web文

本情感极性分类算法[J]・成都信息工程学院学报,2015, 30

rugby 2nd reports: university rugby teams analysis using physical and

psychological dataf CJ//IEEE. International Conference on Artificial Life and Robotics (ICAROB). Miyazaki: IEEE, 2017 :412 -415.[38] NGUYEN D D, VO N P, VO T N T, et al. STING algorithm used

English sentiment classification in a parallel environment [ J ]. Interna­tional Journal of Pattern Recognition and Artificial Intelligence, 2017 ,

(4) : 355 -360.[59] 陆振东,张楠.基于句法与主题扩展的中文微博情感倾向性分析

模型[J]•计算机应用,2014, 78(2): 561 -570.[60] 刘龙飞,杨亮,张绍武,等.基于卷积神经网络的微博情感倾向

性分析[J].中文信息学报,2015, 29(6): 159 -165.31(7): 568 -576.[39JMALLADI T, MITROVIC - MINIC S, PUNNEN P. Clustered maxi­

[61] 黄高峰,周学广.一种语句级细粒度情感倾向性分析算法研究

[J].计算机应用与软件,2015, 32(4): 239-242.mum weight Clique problem: algorithms and empirical analysis [ J ]. Computers & Operations Research, 2017 , 85 : 113 — 128.[62] YARDI S, BOYD D. Dynamic debates: an analysis of group polariza­

tion over time on twitterf J]. Bulletin of Science, Technology & Soci­

[40 ] ENAM N, ISMAT N, FAROOQ F. Connectivity and coverage based ety, 2016, 69(6): 66-133.[63] YZERBYT V, DUMONT M, WIGBOLDUS D. The impact British of

grid - cluster size calculation in wireless sensor networks [ J ]. Wire­less Personal Communications, 2017 , 9(2) : 429 -443.categorization emotions and action tendencies [ J ] . Journal of Social on

[41] 刘晓波,邵伟芹,张明明,等.基于双网格校正小波聚类的转子

故障诊断[J]・计算机集成制造系统,2017,23(9): 1883 -1890.-Wiley Online Library, 2017 , 23(8) : 62 -66.[64] 赵蓉英,张扬.基于时空维度的国内外情感分析研究演化分析

[J]•情报科学,2018, 6(11): 204 - 209.[42] ZHANG K, XIONG Y Z, HUANG L. A novel algorithm based on a-

void determining noise threshold in DENCLUE [ CJ//JIA Y M, DU J

[65] 何跃,赵书朋,何黎.基于情感知识和机器学习算法的组合微文

情感倾向分类研究[J].情报杂志,2018, 11(7): 102-106.P,ZHANG W C, et al. Proceedings of 2016 Chinese Intelligent Sys­

tems Conference. Singapore: Springer, 2016, 405 : 301 -311.[43] KAZEMI M, ABBASPOUR A, MOJARAB M. Spatio - temporal mod­

eling of seismic provinces of Iran using DBSCAN algorithm [J]. Pure

[66] 刘勘,袁蕴英.基于词向量的微博情感倾向分类研究[J].图书

情报工作,2018, 6(8): 138 -144.[67] 王林,李旳泽.情感倾向分析在舆情监控方面的研究[J].微型

机与应用,2017, 36(5): 11-13, 17.and Applied Geophysics, 2017, 174(5): 1937 - 1952.[44] SHUKLA M, KOSTA P, JAYSWAL M. A modified approach of OP­

TICS algorithm for data streams [ J ]. Engineering Technology & Ap­plied Science Research, 2017 , 7(2) : 1478 — 1481.[68] JIANG J, SU Z, ZHANG G, et al. Agent - behavior strategy in serial

multi - task coalition formation [ J ]. Control Theory & Applications, 2016, 25(5) : 853 -856.[69 ] YE D Y, ZHANG M J, DANNY S. Self - adaptation - based dynamic

coalition formation in a distributed agent network: a mechanism and a

[45] 马存,郭锐锋,高岑,等.改进特征权重的短文本聚类算法[J]・

计算机系统应用,2018, 9(3): 149 -153.[46] PHUVIPADAWAT S, MURATA T. Breaking news detection and

tracking in twitter [ C ] //IEEE. Web Intelligence and Intelligent A-

brief survey [ J ]. IEEE Trans on Parallel and Distributed Systems, 2017 , 24(5): 1042 -1051.[70] 柳赛男,陈明亮.基于文化算法的多agent联盟在网络舆情监测

中的应用[J].控制与决策,2014 , 29(9): 1724-1728.gent Technology ( WI - IAT), 2011 IEEE/WIC/ACM. Lyon : IEEE, 2010: 120-123.[47] 赖向阳,宫秀军,韩来明.一种MapReduce架构下基于遗传算法 [71] 冯如晓,刘志明,雷龙艳.基于搜索引擎的关键词舆情过滤算法谢卫红等:网络舆情监控算法研究与分析205研究[J].计算机工程应用技术,2014, 10(6) : 1328-1332.based on behavior analysis [ J ]. Journal of Computer Applications, [72] 周东浩,韩文报.Difffiank: 一种新型社会网络信息传播检测算

2017, 34(8) : 2404 -2408.法[J].计算机学报,2014, 37(4): 884 -893.[82] DING X, LIU Q C, ZHANG W. An improved model for information

[73] 郭韧,李娜.网络舆情监控中的知识匹配研究[J].情报理论与

dissemination and prediction on micro - blog networks] J]. Journal of 实践,2015(9): 110-113.University of Science and Technology of China, 2017 , 42(7) : 582 -

[74] 赵丽娟.Logistic曲线在网络舆情预测中的应用研究:以“广西镉

598.污染”网络舆情事件为例[J].网络安全技术与应用,2014(6):

[83] XIE J, LIU G S, SU B. Prediction of users retweet behavior in social

11 -12.network [J]. Journal of Shanghai Jiaotong University, 2016, 47 (4):

[75] 田世海,吕德丽.改进潜在语义分析和支持向量机算法用于突发

584-588.安全事件舆情预警[J].数据分析与知识发现,2017, 5(7): 160

[84] KUANG C, LIU Z Y, SUN M S. Personalized ranking of micro -

-164.blogging forwarders [ J ]. Journal of Shandong University ( Natural Sci­[76] 孙靖超,高见,胡啸峰.基于改进注意力模型的网络舆情趋势预

ence) ,2017, 49(11) : 31 -36.测研究[J]・情报杂志,2018, 6(3): 76 -80.[85] 王振飞,刘凯莉,郑志蕴,等.基于逻辑回归模型的微博转发预

[力]陈福集,史蕊.基于残差修正的多因素灰色模型的网络舆情预测

测[J].小型微型计算机系统,2016, 37(8): 1651 -1655.研究[J].情报科学,2018, 5(8): 201 -205.[78] 魏德志,陈福集,郑小雪.基于混沌理论和改进径向基函数神经

作者简介:谢卫红(1969—),女,湖北荆州人,博士,教授,博士 网络的网络舆情预测方法[J].物理学报,2015 , 64( 11 ) :44

研究生导师,主要研究方向为大数据战略管理、数据隐私与交易、 -51.战略信息管理与创新、企业战略与组织理论、盈利模式、技术创新

[79] ZHANG Y, LU R, YANG Q. Predicting retweeting in micro - blogs 管理等;杨超波(1982—),男,广东茂名人,博士研究生,主要研 [J]. Journal of Chinese Information Processing, 2017 , 26 ( 4) : 109 究方向为大数据、网络舆情算法优化等;朱郁筱(1987—),女,浙 -121.江温州人,博士,讲师,主要研究方向为数据结构与信息管理等;

[80] CAO J X, WU J L, SHI W. Sina micro 一 blog information diffusion a-

李忠顺(1990-),男,广东汕头人,博士研究生,主要研究方向为 nalysis and prediction [ J ]. Chinese Journal of Computers, 2016, 37 商业模式创新等;蒋瞰阳(1991-),男,广东广州人,硕士研究 (4) : 779-790.生,主要研究方向为计算机与网络安全等。[81] QI C, CHEN H C, YU Y. Micro - blog information diffusion effect

因篇幅问题不能全部显示,请点此查看更多更全内容