张春成

V2

2022/06/08阅读:21主题:默认主题

高斯过程的数据补全

高斯过程的数据补全

本文以美国劳动参与率数据为基础,进行了可视化,并对缺失年份的数据,使用高斯过程方法进行了补全。 欢迎访问我的主页进行交互 https://listenzcc.github.io/home-page-2/


数据来源

数据来自于美国政府网站下载的,按照性别和族裔区分的,劳动参与率指标数据。数据按年度进行记录,记录的范围是1940年到2020年。重点概念解释如下

  • 性别,包括男性(M)和女性(W);
  • 族裔,包括白人(White)、黑人(Black)、亚裔(Asian)、西班牙裔(Hispanic)以及全部族裔的总合(ALL);
  • 劳动参与率,是一个经济学指标,

What Is the Labor Force Participation Rate?

The labor force participation rate is an estimate of an economy’s active workforce. The formula is the number of people ages 16 and older who are employed or actively seeking employment, divided by the total non-institutionalized, civilian working-age population.

简单来说,这个指标代表适龄人口参与生产劳动的比率。

https://www.dol.gov/agencies/wb/data/lfp/lfp-sex-race-hispanic

数据浅析

从大的趋势上看,男性的参与率一直在下降,而女性则一直提高。这代表了20世纪以来,妇女在经济生活中地位的崛起。

[Image]

而在不同族裔的参与率各不相同,以男性为例,比率从高到低分别为西班牙裔、亚裔、白人和黑人。而女性的顺序则正好相反。这也许说明了美国社会的基础单元是夫妻家庭而非个人,国民以家庭为单位向社会提供劳动力。从而解释了族裔内,男、女劳动参与率的“此消彼长”的互补关系。

[Image]

进一步的,我们将男、女的比例数值平均起来,得到劳动人口的参与率。得到了的时间变化曲线呈现倒u形趋势,在2000年达到峰值,之后不断下降,2014年略有反弹,2020年又跌落。

数据补全

而这组数据有一个小问题,这就是它对于黑人、亚裔和西班牙裔都仅统计了部分年度的数据,也就是说,存在数据缺失。那么我们使用高斯过程的方法,对它们进行补全。

我们假设,数据的方差来源主要是两方面

  1. 时间,也即年度标签
  2. 经济环境,这个指标我们没有,所以采用全部族裔的参与率数据来替代

在这些假设的条件下,我们就能对缺失的年份数据进行补全

[Image]

[Image]

代码开源

本文的代码是用 Javascript 前端写的,

https://listenzcc.github.io/home-page-2/dataPrediction/

可以访问我的主页来进行交互

https://listenzcc.github.io/home-page-2/

[Image]

分类:

前端

标签:

前端

作者介绍

张春成
V2