网络舆情倾向性分析的相关技术调研
社会民众通过网络所表达的群体性的情绪、态度、意见与要求等形成了网络舆情,是社情民意中最活跃、最尖锐的一部分,最直接、最快速地反映了社会各个层面的舆情状况与发展态势,对社会产生的影响面和影响力越来越大。
互联网只是信息传播的途径和工具,网络舆论的倾向性,对社会产生着正负两方面的影响。一方面,它对于信息的传播,特别是一些重要的新闻事件和社会突发公共事件的报道表现出传统舆论无法与之相比的优势:民众可以实时参与对事件的讨论,进而引导和影响事态的进程和发展;另一方面,某些网络舆论信息,例如对新现的某个病例危害的夸大性评论,容易引起社会民众不必要的恐慌,危害社会安全稳定。于此,分析当前网络的舆情动态,对网络的热点、焦点与敏感话题及时做出反应,合理甄别引导,从而提高处置网络突发事件的能力和监管能力。
在网络舆情监控分析与预警方面,网络舆情信息获取的快与准、内容分析的确定性、舆情研判的准确性、舆情响应及时性、信息跟踪的及时性等目标的实现是网络舆情分析研究的重中之重。
舆情监测分析的核心技术在于舆情分析引擎,涉及的最主要的技术包括文本分类与聚类、主题检测与跟踪、观点倾向性识别、自动摘要等计算技术。
迄今为止,国内外所从事的网络文本倾向性分析研究工作可归纳为以下几个方面:(1)客观性分类:从 Web 上获取的评论文档按照类型和风格的不同区分为主观和客观两类,其结论是基于词性标注的特征选择方法比词袋方法效果好。(2)词的极性判别:即通过分析带有语气词的特征来判断词的极性。
网络舆情监控系统在设计时应该考虑以下几个方面:采用最新的搜索引擎技术、信息采集技术、信息分类技术,通过自然语言处理、信息分析比对、实时统计分析等手段,对互联网海量信息自动获取、提取、分类、聚类、主题监测、专题聚焦,以满足用户对网络舆情监测和热点事件专题追踪等需求。系统应该突出舆情监测、舆情采集、舆情智能分析、舆情处理、舆情预警、舆情搜索、舆情报告辅助生成等功能,可以有效帮助客户全面掌握舆情动态,正确进行舆论引导。
舆情分析系统的核心功能,包括:(1)热点话题、敏感话题识别,可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用关键字布控和语义分析,识别敏感话题。(2)倾向性分析,对于每个话题,对每个发信人发表的文章的观点、倾向性进行分析与统计。(3)主题跟踪,分析新发表文章、帖子的话题是否与已有主题相同。(4)趋势分析,分析某个主题在不同的时间段内,人们所关注的程度。(5)突发事件分析,对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。(7)预警系统,对突发事件、涉及内容安全的敏感话题及时发现并报警。(6)统计报告,根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,方便对决策提供支持。
倾向性分析面临的主要问题是目前的大部分方法和技术都和领域或话题相关,局限在某个特定领域或者关联于某个话题下进行倾向性的分析,缺乏一般性的通用技术。基于语气词标注的方法严重依赖于标注专家且不利用训练样本,其分类精度往往不如基于机器学习的方法。而基于机器学习的倾向性分析方法又取决于训练集的大小与质量,同时具有很强的领域或主题依赖性,由于已有的标注语料库的规模都很小,因而这类有监督的语气分析方法的效果仍然难以保证。基于语义模式分析的方法则受限于自然语言处理技术的不够成熟而很难实用。中文倾向性分析方面的情况则更加突出,一些基本问题尚未得到圆满的解决:(1)各种有监督的机器学习方法在中文数据集上的语气分类效果孰优孰劣;(2)文
本特征表示方法和特征选择机制等因素对中文语气分类的性能将产生什么影响;(3)文档集的哪些语气特征对语气分类的精度具有决定性影响等。因此,为解决上述问题,应着重研究倾向性主客观过滤技术和观点极性、强度、情感分析判别技术:研究网络环境下倾向性特征词的特点和类型,并进行语气极性判别和标注,从而构建一个面向互联网的倾向性语气词典,建设一定规模的标准数据集,为中文倾向性分析的深入研究和公开评测提供支持。
因篇幅问题不能全部显示,请点此查看更多更全内容