网络舆情监测关键技术 作者:国际关系学院/刘巍

根据中国互联网络信息中心发布的第38次《中国互联网络发展状况统计报告》,截至2016年6月,中国网民规模达7.10亿,互联网成为了舆论的产生地与传播扩散场所。由于互联网的传播迅速、数据量巨大的特点,人工监测已经不能满足现实的需要,因此网络舆情监测与引导系统的设计与研究十分重要。本文应用舆情监测过程应用的相关信息技术,提出了基于模块结构的技术流程,设计了一个网络舆情监测与引导框架,并对每一模块的功能与技术实现进行了详细说明。

网络舆情监测技术综述

舆论引导顺利展开的前提和保障是舆情信息的搜集、处理与展示工作,这些工作对于制定引导策略至关重要。

1. 网络舆情信息采集技术

(1)元搜索技术

搜索引擎在我们的日常互联网使用中非常普遍,而用户在搜索时往往使用单一的搜索引擎,单一的搜索引擎并不能保证覆盖100%的互联网信息,这导致了检索结果不全数量不够的缺点存在。元搜索技术针对这一缺点建立在已有搜索引擎服务之上,集成多个单一优秀的搜索引擎,这  样做有利于集合多个搜索引擎的优势供用户选择。

(2)网络爬虫技术

网络爬虫(Crawler)又称网络蜘蛛(Spider),是一种能够根据需求提取网页的脚本或程序,可使用多种高级编程语言编写,目前使用十分广泛。它的主要目的是将网页下载到本地形成一个互联网内容的镜像备份,从而获得网页信息。

2. 网页解析与预处理技术

这里主要包括信息抽取技术、分词技术和文本形式化技术。这些技术能够协作工作,是将互联网数据转化为易于理解的信息数据的重要一步,是决定舆情监测效果的关键。

(1)信息抽取

信息抽取技术主要包含有两类,基于模板的抽取方法的思路是经过分析,同一网站或类似网站的网页格式基本固定,网页内容可能随时更新,但使用的模板却稳定不变,这样方便了自动化处理。基于网页结构信息的抽取方法使用网页结构分析技术,能够对目标信息的抽取实现自动化,多数爬虫爬得的数据为半结构化,不能直接处理,针对这一特点可采用这种方式。

(2)分词技术

分词技术用于将语句拆分成单词,便于理解,现在的检索系统中常用的分词算法可分为三类,基于统计的分词方法(Based on statistics)、基于理解的分词方法(Based on understanding)和基于字符串匹配的分词方法(Based on character matching)。

(3)文本形式化技术

文本形式化的目的是使用一定可衡量的因素来代表文本,从而方便掌握文本的各种特点,它是高级检索的基础工作。常用的文本形式化算法采用有以下模型:布尔模型(Boolean Model)、概率模型(Probabilistic Model)、聚类模型(Cluster Model)和向量空间模型(Vector Space Model)等。

3. 文本聚/分类技术

经过一系列的舆情信息搜集与处理,我们得到了大量数据集,而这些舆情的主题并不十分明显,这里我们就需要用到数据挖掘中的分类和聚类方法来判断所得信息主题是否与部门监测的主题一致,预测舆情的发展趋势,为舆论引导的相关工作提供了参考。

1.文本分类算法

分类算法通过数据集中的数据表现出来的特性(这里也就是通过文本形式化生成的文本特征)来对数据进行分类,从而得到与监测主题相关的舆情信息,结果直观。

2.文本聚类算法

聚类算法的中心思想是把数据元素分成簇,使簇内元素相关性更大,不同簇间元素相关性小,从而达到相互区分的目标,利用这点可以将网络舆论的热点进行归纳,很容易在一个簇中发现近期舆论的突出表现和倾向,这为舆论引导工作点明了方向。

4. 舆情信息分析与展示技术

(1)可视化分析

可视化分析技术的设计思想是将数据库(这里就是我们的舆情信息数据库)中的数据项映射成生成图元素,将各个数据项特征表示成图形,并且使用高维度方式来代表数据元素的各个属性值大小。使用线状图、柱状图等统计学图形,能够对相关数据更直观更方便的了解和分析。

(2)观点倾向分析

观点倾向分析有很多种方式,例如获取网络热门事件相关网页,利用聚类算法处理评论,得到的句集使用分词技术,然后通过对比事先建立的语料库中的关键词计算语句的情感倾向,从而得到网民情感倾向,了解网民的真正看法。

网络舆情监测框架

在了解舆情信息工作需要使用的相关技术后,我们需要将各部分工作串联起来,组成相应工作模块,与舆论引导工作相结合,共同构成网络舆情监测与引导框架。本节提出一个基于四模块结构的框架系统,分别包括舆情信息搜集模块、舆情信息处理模块、舆情信息分析展示模块和舆论引导模块。

1. 舆情信息搜集模块

舆情信息采集模块设计的目的是尽可能地从互联网获取最全面的舆情信息,对全网舆情多发点进行全面监控。根据舆情多发点网站性质的不同,且由于传统单一的爬虫技术获得垃圾信息较多、工作效率低等缺点,这里设计四种爬虫技术协作使用。这里还需要一种爬虫调度机制对几种爬虫技术进行合理地调度。

2. 舆情信息处理模块

舆情信息搜集模块为监测工作提供基础数据,舆情信息处理模块的目的是对搜集到的数据进行信息化处理和过滤。信息抽取工作要根据爬虫种类的不同区分应用的处理策略。

3. 舆情信息分析展示模块

我们知道,很多舆情监测工作都有一定目的性,舆情信息分析展示模块设计目的是可以根据监测者提供的主题、关键词,应用分类算法确定是否有关危险舆论出现,尽快发现并进行处理;应用聚类算法得到民众的几种观点所在并理性分析舆情发展态势做出应对措施,这其中包括了观点倾向分析技术的应用。同时语料库的建立能够在引导相关技术方面有所应用。

总结

现实表明,完善舆情监测与引导工作、健全舆论引导机制的需求十分迫切。做好舆情监测与引导工作,有利于及时扫除危害国家公共安全的潜在危险,有利于了解民意制定政策,有利于规范网络公共秩序,有利于公民道德与价值观的进步。

2017-01-13 11:04
来源:中国信息安全杂志(2016.9)
热门推荐更多
热点新闻更多