使用术语加权的推特数据分析预测2017年法国大选

@caizx

  • 应用
    • 选举预测
  • 数据
    • 社交媒体
  • 方法
    • 关键词提取
    • 文本情感分析

摘要

Twitter是一个社交网络,可以让用户发布他们对时事的看法,分享他们的社交活动,并与他人互动。它现在已成为最大的新闻来源之一,每月有超过2亿活跃用户。本文提出了一种基于Twitter数据分析预测选举结果的方法,该方法使用术语加权和选择来分析情感信息,以预测候选人的受欢迎程度。该方法用于预测2017年法国总统大选的结果。已经证明,该方法的预测结果较好地符合了最终的选举结果。

主要内容

利用推特开发者账号使用官方提供的API来收集相关候选人的信息,与2017年法国大选有关并在投票日之前发布的推文被收集并按日期和候选人姓名进行分类。从每条推特中提取关键词,为每个关键词赋予权重值,根据以下方式计算关键词i推文j中的权重: $$ TF-IDF_{i,j} = tf \times idf = \frac{t_{i,j}}{\sum_k t_{k,j}} \times lg \frac{N}{| { d \in D | i \in d } | } $$ 其中,tf是文档中的术语频率,它是关键词在推文中出现的次数,idf是与某个候选人相关的所有推文中的逆文档频率,$t_{i,j}$是关键词i在某条推文j中出现的次数,$\sum_kt_{k,j}$是所考虑的所有关键词出现在推文j中的总次数。N是与某个候选人相关的所有推文D的数量,$|{d \in D | i \in d}|$是包含关键词i的推文数量。其中权重值的符号由关键词的词性决定,若词性为正面的则为正值,反之为负值。在D中关键词i的总加权分数为将每一条推文中i的权重值求和。关键词可分为三类(以两个候选人为例): 1.某个关键词在两个候选人中均出现,且都表现为正面的或者负面的 2.某个关键词在两个候选人中均出现,但是感情倾向相反 3.某个关键词只出现在某一个候选人中 为了找出哪类关键词更加有用,给每类关键词的权重值分别乘以系数f1,f2,f3。为了确定系数f1,f2,f3的值,在0.5-1.5之间采用步长为0.05的方式来组合三个系数的值,选取与过去民调数据最为拟合的组合值,如果有多组值拟合,则取它们的平均值。某个候选人的最终得分为将属于该候选人的所有关键字的权值求和。某候选人的支持率为该候选人的得分占所有候选人得分的百分比。

不足之处

关键词的提取方法主观性较大,对于不同的候选人提取出来的关键词的数量可能相差较大,对预测结果有一定影响。

创新点

对每个候选人的不同的关键词赋予不同的权值,对不同类型的关键词的权值乘以不同的系数,使得预测结果更加准确。

Page Not Found

Try to search through the entire repo.