利用机器学习和社交媒体预测稀有事件

应用：
- 球赛冷门预测
数据
- 社交媒体
方法：
- 文本情感分析
- 朴素贝叶斯分类器

摘要

（机翻）从政治选举到股市波动，利用从社交媒体流中提取的信息来预测大量现实世界事件的结果。越来越多的研究表明，社交媒体对话的分析如何为人群的智慧提供便宜的途径。然而，至少以系统的方式仍然未验证可以有效利用这种预测能力的范围和背景。目前还不清楚基于社交媒体的预测与基于替代信息来源的预测相比如何。为了解决这些问题，我们在这里开发了一个机器学习框架，利用社交媒体流自动识别和预测足球比赛的结果。我们特别关注的是匹配，其中至少有一种可能的结果被专业博彩公司视为极不可能。我们认为体育赛事提供了一种系统的方法来测试社交媒体对话的预测能力，并允许将这种权力与外部来源设定的严格基线进行比较。尽管有这么严格的基线，我们的框架在用于告知简单的博彩策略时，其收益率超过8％。该系统基于实时情绪分析，并利用在比赛开始前立即收集的数据，允许通过其预测进行投注。我们首先讨论我们的方法背后的基本原理，然后描述学习框架，它的预测性能和它提供的与一组投注策略相比的回报。为了测试我们的框架，我们使用来自2014 FIFA世界杯比赛的历史Twitter数据（10％样本）和通过监控四场主要欧洲锦标赛的所有足球比赛的对话收集的实时Twitter数据（全流）（2014年10月25日至2014年11月26日期间）（英超联赛，意甲联赛，西甲联赛和德甲联赛）以及2014年欧洲冠军联赛。

主要步骤

选择盘口赔率差异较大的比赛；
通过已有的情感分析算法，如 the Indico Deep Learning，在赛前 6 小时对强队球迷和弱队球迷的 Twitter 动态进行打分；
每半个小时根据两者的分布差异计算出一个 p 值，共得到 12 个 p 值组成一个向量；
用朴素贝叶斯分类器学习 p 值向量与球赛结果的关系；
根据学习结果进行回归测试，达到了 8% 收益率。

存在的问题

1. 理论依据不足

文章拿 Twitter 情感分析应用在了选举、票房、股票的预测上说明也可以用来预测球赛。但其实球赛跟这三者不一样：在 Twitter 上看法不同的用户在现实中是有能力通过自己的行动对这三者的结果产生实质性影响的，比如讨厌一个政客就不给他投票、喜欢一部电影就去多刷几次、对一支股票绝望了就割肉杀跌。但是球迷尽管能对球队有不同看法，却似乎没有途径可以因此影响到球赛的结果。
总之作者在文章中对于所谓的“群体智慧”反复吹捧，却没有论证，近乎迷信。

2. 数据量太少

总共只有 56 场比赛，每场比赛只有“输-赢-平”三种结果，可供验证的数据实在太少，训练出的模型缺乏可信度。

3. 结果不够好

模型最后取得了 %8 的收益，但这收益率有点低。文章研究的本身就是盘口赔率差异较大的比赛，一不小心押中就有很高的赔率，比如错 25 场对 3 场，可能就有 8% 收益了，再错 25 场对 3 场，数据就用完了。

3. 测试不客观

相同数据既做训练集又做测试集。