
公共信息网络是一个开放的、国际化、个性化的社会环境形态,在变革人们工作和生活的同时,也给信息网络的安全带来了严峻挑战,信息网络内容安全和虚拟社会现实化管理问题,也直接影响着社会的稳定、国家的安全。近年来,国内部分地区和城市先后发生一些热点与敏感问题炒作事件、件、突发性事件,基本都与利用公共信息网络进行恶意炒作、煽动、勾连有着密切的关系。与此同时,各级党、网络安全管理和保卫部门的网络舆情管理控制能力还比较薄弱,距离适应复杂的网上斗争形势要求还存在较大差距【1-2】。因此建立一套行之有效的公共信息网络舆情数据获取、分析、挖掘技术手段,实时采集、提取有价值的网上舆情情报信息,提高公共信息网上舆情综合分析研判和斗争能力的舆情智能分析系统势在必行。
1公共信息网络舆情智能分析系统原理
系统总体目标是运用实时采集、获取公共信息网络数据、各级职能机构网络管理和备案数据,通过对多种渠道获取的海量公共信息网络数据进行
公共信息网络舆情智能分析系统的分析与设计
范立国
(长春市网络安全保卫支队,吉林长春130051)
摘要:针对当前公共信息网络在舆情方面存在的问题,剖析了公共信息网络舆情智能分析系统的技术特性,研究出一套集综合信息采集、全文检索、查询分析、数据关联挖掘为一体的公共信息网络舆情智能分析系统,提高对公共信息网络阵地的控制能力,对有效开展深层次网上斗争工作具有重要现实意义。
关键词:网络舆情;综合信息采集;全文检索;数据关联挖掘
中图分类号:G350文献标识码:A文章编号:1007-7634(2010)11-1714-05
Analysis and Design on the Intellectual Ability Analytics System of Public Sentiment in Public Information Network
FAN Li-guo
(Network Security Detachment,Changchun Public Security Bureau,Changchun130051,China)
Abstract:For the current issues on public sentiment in public information network,this paper anatomies the property of the analytics system of public sentiment in public information network and studies out a smart analytics system of public sentiment in public information work containing collection of comprehensive information,full text search,inquiries and analysis,data associated mining.The system will increases the controllability of public information network position and has important actual significance for carrying out deep-rooted online struggle work effectively.
Keywords:net-mediated public sentiment;integrated information collection;full-text retrieval;data association mining
收稿日期:2010-06-19
作者简介:范立国(1966-),男,吉林九台人,高级工程师,工学硕士.
情报科学快速筛选、科学分类、综合分析、深入挖掘,及时发现、掌控、追溯网上违法、犯罪嫌疑对象活动信息,防止网络有害信息泛滥传播和舆情失控,防止公共信息网络“神不知、鬼不觉”的事件发生,从而提高党、及网络安全管理和保卫部门对公共信息网络的监督管理、发现处置、侦查打击、防范控制能力,防止公共信息网络出现危害国家经济运行秩序、社会和谐稳定、国家领土安全的组织活动滋生和壮大【3-4】。
1.1系统设计思想
针对目前公共信息网络舆情控制工作面临的实际问题,实现对网上舆情和有害信息的智能分析、主动发现、实时控制,及时获取深层次、内幕性、情报性的特定对象和特定目标及其活动信息。实现公共信息网络舆情监控预警、线索分析调查溯源。具体需求主要表现在以下二个方面:
(1)舆情监控预警。及时获取、分析、发现、分类、统计网上热点问题、敏感话题、有害信息,分析其形成的内在原因和根源,掌握网上和现实分布状况和舆情未来发展趋势,分析其危害程度和可能产生的影响,为党、管理决策提供预警性情报信息【5】。
(2)线索分析调查。根据舆情信息网上串联、网下实施的特点,对网上重点对象、重点组织实施监控,分析其联络规律,勾画其组织结构,汇总其活动情况并进行智能分析,溯源其活动情况、传播范围和途径,调查确定舆情信息的源头和重点环节,自动扩展特定对象线索,汇总其网上联系和活动数据,分析其现实活动轨迹和规律。通过舆情智能分析和挖掘,自动地、精确地获取涉及危害、社会稳定、经济发展的内幕性、行动性、情报性信息【3】。舆情信息监控流程如图一所示:
图1舆情信息监控流程
通过图1看出,舆情信息监控主要分四个步骤:①舆情信息收集。获取公共信息网络上的舆情信息数据源。②数据筛选和预处理。从获取的舆情信息数据中剔除无用信息,将有价值信息进行归纳分类和整理。③线索发现。通过对预处理的数据进行挖掘,发现“有价值”信息。④线索分析。对“有价值”信息进行智能分析,得出其危害程度和可能产生的深远影响。最终为党、管理决策提供预警性情报信息。
1.2系统的体系结构
系统基于服务器集群技术的体系结构,结合海量信息存储、智能数据挖掘等技术,构建一套开放、高效、安全、可扩展的舆情智能分析系统。
根据公共信息网络数据信息的海量特点,系统将采集和获取的数据分解成两种类型的数据:结构化数据和非结构化数据;并针对所处理数据的特点设计为结构化数据存储、非结构化数据存储系统。各个子系统根据系统需求和应用需求构建不同的功能模块,并按模块功能将系统配置成不同的运算和存储集群。通过系统管理网络和服务器,实现对整个舆情智能分析系统的集中管理和监控。
2公共信息网络舆情智能分析系统的设计
系统通过公共信息网络舆情信息分类、聚类、信息检索和信息统计等方法,对网站公开发布的新闻内容、论坛帖子、博客文章、虚拟身份注册信息、IM 聊天信息等内容按照预定策略和方法,并根据信息的性质、来源、传播范围、信息量增长态势等指标对舆情传播情况进行量化、分析和显示。通过分析已知特定对象的网络行为规律和特点,确定同一类网络行为的特点,从海量数据中发现未知的目标。
2.1系统业务流程
系统业务流程如图2所示:
图2系统业务流程
2.2系统架构设计
系统架构设计如图3所示:
11期公共信息网络舆情智能分析系统的分析与设计1715图3系统架构设计
2.3系统功能模块设计
智能分析采集、获取的公共信息网络数据、管理机构网络管理数据、电信运营企业的网络运营数据、上网营业场所和非营业场所网络运行数据、网络安全保卫机关网络备案数据、旅馆服务业网络监控数据、各种交通运输系统旅客流动数据等等多种数据源,收集、采集、获取和智能分析判别公共信息网络上舆情信息,做到以网控网,变被动为主动,巩固管理能力和执法机构的制网权【7-8】。其主要功能模块主要有以下几个方面:
(1)系统数据智能分析模块。通过的对新闻网站、BBS论坛、博客、微博等信息、基础IP地址库信息、ISP注册信息、网络实名信息、病毒特征信息、人口统计信息、专家知识库信息等等进行分析整合,形成基础情报信息和增值情报信息,并在此基础上对所有生成的信息进行系统、人工干预和分析,根据权重数值对重点信息进行重点分析处理。
公共信息网络智能技术分析依托的基础是数据内容,数据的价值性在于数据的实时性、准确性、全面性,因此建立包括虚拟身份库、账号密码库、基础信息库等诸项专用数据库就显得尤为重要。功能主要体现在以下方面:
①重点人员查询。在公共信息网络中发现一些可疑人员,系统将这些可疑人员的资料加入到重点人员信息库,重点人员信息库分类记录可疑人员的姓名、行为、特征、登记时间、登记人等相关信息内容。重点人员信息库支持对可疑人员的添加、检索和查询,
②虚拟身份。系统自动提取海量网络数据中的虚拟身份信息,自动或人工对获取的RADIUS信息进行添加、支持对拨号上网RADIUS信息进行模糊查询,方便目标进行定位和判别。
③上网营业场所和非营业场所虚拟身份。系统自动提取上网营业场所和非营业场所数据中的虚拟身份信息,对目标的RADIUS信息进行查询、存储、分类、索引,准确定位识别在该场所中上网目标的网络身份。
④虚拟身份相似度。实现现实身份与网络虚拟身份的一种关联。通过对网络目标的所有网络身份和ADSL号码、IP地址等进行绑定,以及对虚拟身份进行分析运算和相似度排序,方便管理者和执法者查找某网络虚拟身份属于某一账号的可靠程度。
⑤账号密码。账号及密码是网络世界中相当重要的一类线索,上网目标利用邮箱收发邮件、利用即时聊天工具互相传递信息、利用BBS发帖、都要事先登录自己的账号,因此账号就成为人们在网络中身份代号。账号密码库的功能是自动实时收集所有带密码出现的协议账号,包括获得的Mail数据、IM 数据、Ftp数据中带密码的账号,用以丰富和完善账号密码库,为密码扩线等提供基础。
⑥海量日志。系统的一个重要功能就是从海量网络数据中检索查询出所需的信息内容。海量数据检索主要提供结构化的查询功能,海量网络数据多数由标准协议定义,如:TCP/IP协议族。应用层协议,如;SMTP、POST、MSN、QQ、TELNET,FTP等。一般具有重要的结构化信息,如IP地址、账号。通过这些结构化信息检索出符合需要的信息。
(2)丰富、开放的数据接口。将分布在各职能管理部门中的管理数据、系统采集和获取的网络数据、其它管理信息系统数据等数据源,利用丰富的数据交互接口,实时导入、导出存储系统,实现各种数据与其他系统进行交互。
(3)多数据源整合和预处理。对采集、获取存储的结构化、半结构化、非结构化数据进行整合。对于半结构化和非结构化的数据进行文本格式一体化预处理和索引标记存储,包括解码、格式归一化、多语种自动分词和关键词索引等功能预处理,为关键词检索和智能文本分类提供基础数据。
对于海量的动态网络信息,由于数据量非常巨大,所以需要进行实时过滤处理,特别是对广告和垃圾信息进行过滤,同时选择性地提取有关主题的相关文本,形成关键词,并根据关键词和训练文本建立和构造海量信息自动分类模型,挖掘与分析模块把互联网海量信息按照语义进行分类,形成分媒体、分类别的分类数据库。分类的目的:一是抛弃无用信息,减轻系统存储的压力;二是形成二次信息库,从而提高信息分类的准确性,减轻人工处理的工作量;三是得到可疑信息分类排名,形成日、周、月报表。通过智能数据分类,可提供相似度分析和智能比对,加
1716情报科学28卷快数据检索和分析速度。其功能描述如下:
①智能分类类别管理。智能分类即对海量信息的自动(文本语义分析)分类。通过关键字样本、文件样本、自定义等把原始信息分类,形成分媒体(邮件、短信、论坛等媒体)、分类别(危害、危害社会治安、扰乱社会秩序等)的分类库,智能分类类别管理可以对分类的类别数据进行增加、删除、修改等操作。
②智能分类样本管理。智能分类是通过对关键字样本、文件样本、自定义等把原始信息分类,形成分媒体、分类别的分类库,智能分类样本管理支持上传关键字样本、文件样本、自定义等内容。
③智能分类报表统计和查询。对智能分类的结果进行Html、Mail、IM格式的统计操作。对某时间段内智能分类的结果进行查询。
④专题聚类和宏观聚类分析。为了有效发现网络中突发的大规模社会活动和了解网上网民讨论的主要话题,系统根据网上的信息自动进行聚类分析,发现网络上的舆情热点问题。专题聚类提取感兴趣的内容,为执法部门实时监测、及时预警网上热点舆情提供帮助。对新闻、论坛帖子、博客文章等信息源按照业务人员定义的专题要求进行聚类分析,专题聚类分析具有如下处理功能:提供发布时间段、信息来源、内容要求、语种、相似度等条件;提供多语种信息内容处理;利用概念模式识别技术自动发现信息中包含的重要概念、热点事件,以及概念间、事件间的关系。
(4)特定目标的定位。运用海量信息检索、数据挖掘等技术,通过对获取的海量信息进行文本分类、聚类、过滤,筛选比对、综合分析、深入挖掘,依托高性能服务器集群和云计算技术,实现对特定舆情信息来源的物理位置确定。
结合业务工作需要,对发布、张贴、传播危害、社会政治稳定等违法、犯罪信息的重点对象和组织,实施网上虚拟身份与现实身份的匹配认证,针对特定对象的行为进行数据分析,得到其活动轨迹,完成特定对象的行为追踪。回溯特定对象网上活动过程、活动规律、活动范围和轨迹。
①关系图和流向图。关系图和流向图是从人的角度出发,观察某个人、某个账号在网络中的关系网和数据流向。通过输入一个或多个同类或者不同类的账号,最终得到用图形直观显示的关系图形或者流向图形。通过关联、合并,得到目标联系的详细信息,通过对这些详细信息的分析、排除,手工编辑和去除无用的网络信息,使最后的结果更有利于案件侦查的需要。
②智能扩线。智能扩线模块以已知线索为基础进行扩展,发现其他更多相关线索。比如,根据智能分类结果,获取一些如邮件地址、密码、IP等信息。首先根据邮件地址和IP到虚拟身份库中查找其它身份,如果虚拟身份库的信息不能满足需要,根据这些条件到协议数据中进行虚拟身份扩线、账号扩线、密码扩线、IP账号扩线、IP组扩线、账户碰撞扩线。并且借助于多种条件的组合,找出所有的可疑线索,对其进行联系网的发掘,对其关系网络进行分析,发现目标人员参与的活动群,进而发现整个犯罪集团的成员组成。
③文本提取。很多情况下,系统获得的信息可能比较庞大,很难一目了然地发现关键的信息,因此系统支持文本提取功能,从中发现符合规则的重要案件信息。
④特定网站分析。为了筛查网页上面的有价值信息(例如:登录网站的用户名、密码,邮箱地址、邮箱密码等重要信息),通过特定网站分析模块,对访问网站的目标进行信息提取、分析,对设定的目标关键字和正则表达式进行匹配,然后把返回的结果进行统计和分析,进而了解和掌握重点监控对象的具体信息。
⑤IM群聊。对QQ、MSN、YAHOO等即时聊天工具中的群聊信息经过分析后进行直观显示,并且对指定的QQ账号、分析出其加入的群号、以及群中成员组成和群聊明细。通过对聊天账号登录时的好友信息的分析,绘制好友关系图,从而弥补账号间的联系缺失。
⑥统计业务。主要针对网上个体目标进行分析,根据个体数据种类,在指定的时间范围内根据提交的Mail、Radius、IP地址等账号类型,统计出这些账号的网络行为。实时监控网络宏观行为,根据Mail 账号、Radius账号、IP地址的数据量、活动频率、网络日志等行为的统计信息,明晰和宏观认识当前公共信息网络状况。
3智能分析系统技术特色
系统根据公共信息网络舆情智能分析系统海量数据特点和现实情况,有针对性的设计智能化搜索、检索引擎,使用多种算法和特殊应用支持,辅以复杂结构的虚拟身份识别、定位和完善的智能分析及任
11期公共信息网络舆情智能分析系统的分析与设计17171718情报科学28卷
务联动,共同构筑完善了高效的公共信息网络舆情智能分析系统技术基础。
3.1复杂数据结构的采集
系统实现对采集、获取、存储的数据内容结构化和非结构化分类,不仅存储、索引这些文件,而且对图片、声音、视频等特殊文件构建索引,满足特定的查询要求。更重要的是支持结构化和非结构化数据的关联存储,通过勾联分析和溯源分析等应用把两者紧密结合起来。
3.2高速、准确、智能的搜索技术
系统搜索引擎是专为舆情情报智能分析设计的,带有鲜明的业务特性。综合采用多种检索、查询算法(数组散列、倒排表、后缀树等)相结合的方法构造快速查询搜索,同时为了提高专题信息的搜索效率,采用相应的智能控制技术、相关反馈、自动学习等方法,迅速将最希望看到的结果排列在最前面,实现迅速,准确,全面定位目标信息。
3.3特殊应用支持
针对公共信息网络舆情智能分析的特殊业务应用需要,设置一些独特的功能模块。例如:海量数据的索引和查询就有别于通用搜索引擎和企业搜索引擎只支持关键字检索方式,它特殊设计了对声音、图片进行二进制检索;设计支持简体/繁体自动转换功能;设计支持同音异形字的处理和搜索结果的智能统计与分析等特殊应用功能。
3.4支持复杂结构的虚拟身份识别
虚拟身份识别支持复杂数据结构形式,提供网络虚拟身份信息相关的描述与真实社会信息的联动。综合运用虚拟身份和数据挖掘的结果,配合网络认证数据信息,快速定位到现实社会的人员身份,更大程度的发现有价值的情报信息。
4结语
综上所述,本文分析了当前公共信息网络在舆情管理控制方面存在的问题,剖析了公共信息网络舆情智能分析系统的特性,设计出一套集综合信息采集、全文检索、查询分析、数据关联挖掘为一体,基于公共信息网络的舆情信息智能分析系统,实现对公共信息网络信息进行舆情线索的获取、关联、统计、分析、挖掘、预测,挖掘出具有前瞻性、预警性、深层次的网上舆情情报信息。提高党、对公共信息网络阵地的控制能力,对有效开展深层次网上斗争工作具有重要现实意义。
参考文献
1蒋平,李冬静.信息对抗[M].北京:清华大学出版社,2007:1.
2黄成军.网络舆情与公共事件关系研究[D].重庆:重庆大学, 2009.
3吴亚非,李新友,禄凯.信息安全风险评估[M].北京:清华大学出版社,2007:4.
4徐晓日.网络舆情事件的应急处理研究[J].华北电力大学学报(社会科学版),2007,(1):-93.
5吴兴业,班成英.互联网舆情分析预警初探[J].信息网络安全,2008,(6):57-58.
6Charles P.Pfleeger(美).信息安全原理与应用[M].北京:电子工业出版社,2007:11.
7钱爱兵.基于主题的网络舆情分析模型及其实现[J].现代图书情报技术,2008,(4):49-55.
8张珏.网络舆情预测模型与平台的研究[D].北京:北京交通大学,2009.
(责任编辑:徐波)
