使用传染病的隔室模型预测选举

@caizx

  • 应用
    • 选举预测
  • 数据
    • 民意调查
    • 基本数据
      • 经济数据
      • 人口统计
  • 方法
    • 疾病传播模型

摘要

为了预测政治选举,主流的民意调查机构和预测人员会收集民意调查数据,并将他们的信息与历史趋势,国民经济和在职人员等基本数据相结合。这个过程很复杂,并且包括许多主观选择(例如,在识别可能的选民,估计投票率和量化其他不确定性来源时),导致不同的预测结果之间相差甚远,即使他们使用相同的投票数据。为了揭示选举预测的过程(以美国为例),我们从动态系统的角度提出了预测选举的理论。通过一种简单的方法,借鉴流行病学的观点,我们展示如何将疾病传播的隔室模型与公共民意调查数据相结合,以预测州一级的州长,参议院和总统选举。我们对2012年和2016年美国选举的结果与主流的预测者的结果基本一致,我们使用我们的新模型来探索关于不确定性的主观选择如何影响结果。我们的目标是开辟新的途径来改善预测选举的方式,增加对流行新闻来源报道结果的理解,并说明使用动态系统进行数据驱动预测的价值。

主要内容

使用民调数据和基本数据来预测选举。基本数据是与选举无直接关系的信息,它包括经济数据,人口统计等。根据民调数据和基本数据将每个州的人口归为三类,支持民主党的,支持共和党的以及持中立态度的。根据以下公式计算不同时期的三类人群的比率。使用早期的民调数据来初始化参数。 $$ \frac{dI^i_D}{dt}(t) = -\gamma^i_D I^i_D + \sum^M_{j=1} \beta^{ij}D \frac{N^j}{N} S^iI^j_D $$ $$ \frac{dI^i_R}{dt}(t) = -\gamma^i_R I^i_R + \sum^M{j=1} \beta^{ij}R \frac{N^j}{N} S^iI^j_R $$ $$ \frac{dS^i}{dt}(t) = \gamma^i_D I^i_D + \gamma^i_R I^i_R - \sum^M{j=1} \beta^{ij}D \frac{N^j}{N} S^iI^j_D - \sum^M{j=1} \beta^{ij}_R \frac{N^j}{N} S^iI^j_R $$ 根据民调机构的数据以及历史数据将全国的州分为三类,支持民主党的州,支持共和党的州以及持摇摆意见的州。将所有支持民主党的州和支持共和党的州聚合成两个超级州。模型中使用的州的数量M为两个超级周加上剩下的摇摆州的数量。$N^j$是第j个州中的选民数量,$S^i$是第i个州中未决定选民的比例,$I^i_D$是第i个州的民主党选民的比例,$I^i_R$是是第i个州的共和党选民的比例,$\gamma^i_D$和$\gamma^i_R$是民主党和共和党在州i的选民变为中立选民的比率,$\beta^{ij}D$和$\beta^{ij}R$分别对应民主党和共和党在州j中的选民对州i中的中立选民的影响力。由于州与州之间会有相似性,在一个州出现了预测错误可能会引起与之相似的州的错误。为了探索这种州之间的相似性的不确定性的影响,在上述公式后分别加上不确定项$\sigma d W^i_D(t)$,$\sigma d W^i_R(t)$,$\sigma d W^i_S(t)$。其中$\sigma$为噪音强度,W(t)为维纳过程。使用Jaccard指数来衡量两个州之间的相似性,$J = \min { D^i, D^j } / \max { D^i, D^j }$, $D^i$和$D^j$分别是州i和j中某部分选民的占比,Jaccard指数衡量的是$W^i_R(t)$和$W^i_S(t)$的协方差。将由民调得到的在每个州的三类人群的比例数据组成: $$ C(t_i) = [ R^1(t_i), \ldots, R^M(t_i), D^1(t_i), \ldots, D^M(t_i), U^1(t_i), \ldots, U^M(t_i) ] $$ 解上述方程得到关于参数$\beta$,$\gamma$的解: $$ c^{\beta, \gamma}(t) = [ I^1_R(t), \ldots, I^M_R(t), I^1_D(t), \ldots, I^M_D(t), S^1(t), \ldots, S^M(t) ] $$ 求得 $$ (\hat{\beta}, \hat{\gamma}) = \text{argmin}{(\beta, \gamma)} \sum^{11}{i=1} | C(t_i) - C^{\beta, \gamma}(t_i) |^2_2 $$ 即得到模型参数。

不足之处

该模型假设每个选民对他人的影响力是相同的,实际的相互影响的网络会更加复杂。

创新点

考虑了民调数据之外的未与选举直接相关的基本数据,借鉴疾病传播模型,考虑州与州之间的相互影响。

Page Not Found

Try to search through the entire repo.