通过线上数据预测 2016 年台湾选举

引言

介绍了当前社交媒体在公共事件、电影票房、股市、地震报道的预测方面的研究，指出当前方法的问题在于信息源单一且统计方法简单，本文要提出一种可以融合多种数据的健壮的预测方法。

介绍了台湾选举的情况。

一方面，采集多种线上数据，用 Kalman Filter 融合起来做预测。另一方面，通过推文数据量的置信区间与文本的关键词演变侦测到事件，根据前面的预测结果来评估事件的影响，增强模型的可解释性。

以上指标都除以三个候选人的指标总和（就是归一化），并且每天更新后取最近 m 天的平均值（平滑）作为当日的信号（Signal）。
四种信号拼接起来，作为当日的观测值 x（民意是个隐马尔可夫链）。

然后隐状态 s 到观测值 x 是用的 Kalman Filter，这个知识点还不懂，以后补。[^TODO: Kalman Filter]

2015 年 10 月的数据显示，他们取到的 80% 的 Twitter 内容都是新闻，因为台湾大多新闻媒体都用 Twitter。
所以就用来做事件侦测的数据源了。

事件侦测的步骤：

感知事件。对当日推文数做 t 检验（假设过去一段时间每天的推文数服从一个方差未知的正态分布），如果超出置信区间，就是有事发生了（假设一天只有一个事件）；
估算时窗。每日推文汇总到一起，算出 TF-IDF 值最高的 30 个词，如果相邻两天的 30 个词有重叠，就认为事件还在持续，以此在前后五天的窗口内确定上一步感知的事件的起止日期（这一步过滤掉时窗仅一天的事件）；
评估影响。从金融领域找了个 Event Study Model，涉及 Kalman Filter

如果将线下民调也合并到信号中，得到的结果只在刚开始更好，到后期并没优势。如图：

中间竖向是时间轴，水平虚线一格为一天，右边是民调的绝对误差。
左边是我们 Data Fusion Method 的绝对误差：有两条，上面一条（M2）合并了民调数据，下面一条（M1）仅使用前面提出的四种线上数据。

[^TODO: Kalman Gain]