利用机器学习和社交媒体预测稀有事件
年份:2015
题目:On predictability of rare events leveraging social media: a machine
learning perspective
作者:Lei Le and Emilio Ferrara and Alessandro Flammini
地址:http://arxiv.org/abs/1502.05886v1摘要
Information extracted from social media streams has been leveraged to
forecast the outcome of a large number of real-world events, from political
elections to stock market fluctuations. An increasing amount of studies
demonstrates how the analysis of social media conversations provides cheap
access to the wisdom of the crowd. However, extents and contexts in which such
forecasting power can be effectively leveraged are still unverified at least in
a systematic way. It is also unclear how social-media-based predictions compare
to those based on alternative information sources. To address these issues,
here we develop a machine learning framework that leverages social media
streams to automatically identify and predict the outcomes of soccer matches.
We focus in particular on matches in which at least one of the possible
outcomes is deemed as highly unlikely by professional bookmakers. We argue that
sport events offer a systematic approach for testing the predictive power of
social media, and allow to compare such power against the rigorous baselines
set by external sources. Despite such strict baselines, our framework yields
above 8% marginal profit when used to inform simple betting strategies. The
system is based on real-time sentiment analysis and exploits data collected
immediately before the games, allowing for informed bets. We discuss the
rationale behind our approach, describe the learning framework, its prediction
performance and the return it provides as compared to a set of betting
strategies. To test our framework we use both historical Twitter data from the
2014 FIFA World Cup games, and real-time Twitter data collected by monitoring
the conversations about all soccer matches of four major European tournaments
(FA Premier League, Serie A, La Liga, and Bundesliga), and the 2014 UEFA
Champions League, during the period between Oct. 25th 2014 and Nov. 26th 2014.
- 应用:
- 球赛冷门预测
- 数据
- 社交媒体
- 方法:
- 文本情感分析
- 朴素贝叶斯分类器
摘要
(机翻)从政治选举到股市波动,利用从社交媒体流中提取的信息来预测大量现实世界事件的结果。越来越多的研究表明,社交媒体对话的分析如何为人群的智慧提供便宜的途径。然而,至少以系统的方式仍然未验证可以有效利用这种预测能力的范围和背景。目前还不清楚基于社交媒体的预测与基于替代信息来源的预测相比如何。为了解决这些问题,我们在这里开发了一个机器学习框架,利用社交媒体流自动识别和预测足球比赛的结果。我们特别关注的是匹配,其中至少有一种可能的结果被专业博彩公司视为极不可能。我们认为体育赛事提供了一种系统的方法来测试社交媒体对话的预测能力,并允许将这种权力与外部来源设定的严格基线进行比较。尽管有这么严格的基线,我们的框架在用于告知简单的博彩策略时,其收益率超过8%。该系统基于实时情绪分析,并利用在比赛开始前立即收集的数据,允许通过其预测进行投注。我们首先讨论我们的方法背后的基本原理,然后描述学习框架,它的预测性能和它提供的与一组投注策略相比的回报。为了测试我们的框架,我们使用来自2014 FIFA世界杯比赛的历史Twitter数据(10%样本)和通过监控四场主要欧洲锦标赛的所有足球比赛的对话收集的实时Twitter数据(全流) (2014年10月25日至2014年11月26日期间)(英超联赛,意甲联赛,西甲联赛和德甲联赛)以及2014年欧洲冠军联赛。
主要步骤
- 选择盘口赔率差异较大的比赛;
- 通过已有的情感分析算法,如 the Indico Deep Learning,在赛前 6 小时对强队球迷和弱队球迷的 Twitter 动态进行打分;
- 每半个小时根据两者的分布差异计算出一个 p 值,共得到 12 个 p 值组成一个向量;
- 用朴素贝叶斯分类器学习 p 值向量与球赛结果的关系;
- 根据学习结果进行回归测试,达到了 8% 收益率。
存在的问题
1. 理论依据不足
文章拿 Twitter 情感分析应用在了选举、票房、股票的预测上说明也可以用来预测球赛。但其实球赛跟这三者不一样:在 Twitter 上看法不同的用户在现实中是有能力通过自己的行动对这三者的结果产生实质性影响的,比如讨厌一个政客就不给他投票、喜欢一部电影就去多刷几次、对一支股票绝望了就割肉杀跌。但是球迷尽管能对球队有不同看法,却似乎没有途径可以因此影响到球赛的结果。
总之作者在文章中对于所谓的“群体智慧”反复吹捧,却没有论证,近乎迷信。
2. 数据量太少
总共只有 56 场比赛,每场比赛只有“输-赢-平”三种结果,可供验证的数据实在太少,训练出的模型缺乏可信度。
3. 结果不够好
模型最后取得了 %8 的收益,但这收益率有点低。文章研究的本身就是盘口赔率差异较大的比赛,一不小心押中就有很高的赔率,比如错 25 场对 3 场,可能就有 8% 收益了,再错 25 场对 3 场,数据就用完了。
3. 测试不客观
相同数据既做训练集又做测试集。
Page Not Found
Try to search through the entire repo.