basasuya 阅读(5) 评论(0)

CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data

论文地址

1 Abstract

这是一个可以预测未来一段时间内所发生事情的可视化系统,使用的是twitter数据进行分析。

2 Introduction

识别一个未来的事件并不可以依靠消息量的突增来判断(一般一个很大的事件的到来会引发交际圈的热烈讨论),一个未来时间的发生并不一定可以激发消息量的增加。识别未来事件的挑战在于筛选大量社交媒体数据,并识别埋在关于过去和正在进行的事件,个人状态更新等的压倒性信息中的小信号。

作者看来,未来事件的定义是"与将来的位置和日期/时间(跨度)相关联的事件。 这种情况的特点是地点和时间,通常与特定主题和社交网络相关联。" 位置和时间是定义未来事件的主要属性

通过这个系统。我们既可以发现各种未来事件,也可以对特定的时间地点进行重点调查。

未来事件提取可视化交互是两个主要的方面

4 System overview and pipeline

CrystalBall集成了多个组件,包括来自Twitter Streaming API ,实体提取,未来事件标识 和排名以及交互式可视化界面。 所有的数据收集和分析都是在线进行的。接口每天刷新以显示未来几天或几周内可能发生的事件的结果。

5 CrystalBall: future event identifiction and characterization

(如何处理数据)

因为未来数据在所有的数据占比小,怎么提取是个问题

NPMI得到了位置和时间之间的相关性,相比PMI,将其正则化到1和-1之间。

除了上面所说到的NPMI,还有一些其他特征,这些其他属性包括

链接和比例,我们衡量包含链接的推文与所有与可能的未来事件相关的推文的比例

主题标签比例。同样,我们测量与一个可能的未来事件相关的推文的标签比率

用户可信度,我们选择一个简单的度量,即Twitter追随者朋友(TFF)比率来表示用户的可信度。TFF是追随者与朋友的比率。 1.0到2.0之间的比率表示用户具有平衡的跟随/跟随者关系

用户多样性,如果关于一个潜在的未来事件的所有推文都来自一个账户,那么这些推文很可能来自被编程为定期发送某些推文的机器人。

除此之外有些信息并不包括完整的信息,比方说纽约在4.3会有一场音乐会,但是推文里只会提到“我将在4月3日访问我在纽约的朋友”,其实可能是和朋友一起看音乐会。所以我们可以设计一些关于相似推文的内容。

中心性。高度连接的推特网络将具有接近1的程度中心性,而分散的推特网络产生接近于0的中心性。

推特相似性但是并不是所有推文都有@和转发相关联。所以我们还计算了每篇推文的相似性

我们已经提出了确定可能的未来事件(NPMI)的措施,以及六个额外措施来描述事件的特征。下一步是结合这些措施来评估已确定的未来事件的质量。我们希望对事件进行排名,以便CrystalBall首先直观地表示高质量的事件。

我们使用RankSVM进行排序。为了训练RankSVM,我们开发了一个标签数据集,其中包含三天内提取的未来事件(约1000个事件)。我们为表2列出的事件定义了5个类别。标注决定表明我们重视地缘政治和基层性质的事件。
五位编码者独立完成了1000次提取的未来事件,并使用上述分类对事件进行了排名。然后,我们使用标记的数据集来训练RankSVM,并开发了一个可应用于无标签事件排序的模型。在CrystalBall可视化界面中,事件列表视图中每天显示的事件顺序(如图3所示)反映了RankSVM的结果。

5 CrystalBall: Visual Interface(可视化分析)

按时间检索

日期纵览

我们从整个时间轴进行查看

上图是未来事件的总揽,首先每行该日期所发生的事件,实线连接的是有相同的地点的事件。虚线连接的是具有同样的关键词的事件。

每个事件都有自己的颜色,颜色代表整个事件的感情属性,而颜色的深浅表达了置信度。

单个日期查看

我们也可以查看一天的信息

A图,花瓣的红色占比代表了这个指标的大小,中间的数字是该日共有几个未来事件。

B图中,1表是每个时刻的时间数,2表是近30天内将会发生的相似事件,3表是按照感情属性分类的结果。

C图中,未来事件中的关键词。

D按钮可以用来收藏

按地点检索

A图中可以放缩不同尺寸的地点,中间的数字表示的是事件数,不同深浅表达了在不同时间点内的事件。

B图中当我们点击华盛顿图表,就会跳出所有事件的映像。

上图词云显示的是当前区域当中过的关键词

上图这种模式下,每个节点代表一个事件,节点之间的链接表示两个事件共享相同的位置和时间。节点中的数字表示事件的推文数量。

上图每个点是一个用户,颜色代表了TTF比例,越深代表跟随者越多。聚集在一起表示同样的时间地点。点击这个区域,所有这块有的词语都会被标红

可视化系统的互动方式有 按照 时间,地点,关键词,类型

7 Case Study

上面介绍了一件北卡罗来纳州夏洛特市2016年9月抗议活动有关的一周活动。图1中的实现代表了三个有同样的地点的事物,分析这个时间线,可以发现这个时间线中有很多关于抗议的关键词。关注9.24一天,可以发现很多人的情绪都转变为恐慌,愤怒。与此同时一个有趣的现象就是大家的视线都转向了trump的一篇推文(最右边的一张图)。

该系统还可以搜索潜在的用户。用户通过关键词(爱国的欧洲人反对西方的伊斯兰化)搜索,可以非常详细的认识一个活动的开始,组织,和最后收到大家的报道。

8 Validation studies

我们希望通过我们的系统预测于2011年9月17日在纽约市开始的占领运动。CrystalBall分析了大约123,000条推文,其中根据我们的初步数据分析,只有120条推文包含标签“占据”。但是CrystalBall可以找到这些蛛丝马迹。下图显示了这个寻找的过程。

随着事件的组织,CrystalBall可以识别早期信号。用户从事件日历视图开始,发现了一系列的选举后事件。在确定了多个大型全球地点(例如印度,英国,加拿大,伦敦,以色列)后,她发现跨越多个日期的“华盛顿”。选择那个地点后,她在就职典礼日(1月20日)之前发现了多个未成年人事件。描述未来事件的关键词包括“million womenmarch”,“washton”,“1月”等。查看与这些事件有关的推文显示3月份的妇女组织活动在选举后不久发生。

9 Limitation

  • 使用 时间-地点 组合进行编码,比较局限。
  • 识别未来事件错误,关于过去事件的新闻头条的推文可能会被错误地视为未来事件,而且很多转发是在很多天之后才收到转发。
  • 时间位置的提取算法还是不准确

10 Future Work

处理多个数据源的流量(fb, ins, wiki, google),新的nlp算法