thomas
2022/12/05阅读:78主题:橙心
概率论与回归
概率论与回归分析
课程学习目标
1:通过学习概率论与数理统计使学生掌握概率论的基本知识,熟悉研究随机现象的数学工具及方法,树立正确看待随机现象的世界观,掌握统计估计的思想与方法,熟悉数据处理、数据分析、数据推断的基本方法,并且具有一定的分析和解决与概率统计相关的实际问题的能力,从而提升学生的专业知识素质,为后续课程及其它相关学科的学习建立良好的知识储备。
2:理解基本定理的证明过程,训练学生的抽象思维、逻辑推理和发散思维的能力,培养学生解决问题的基本意识与技能,提高学生的专业能力素质,为后续专业课程、其它相关专业知识的学习奠定坚实的思想方法基础。
3:使学生进一步掌握具体与抽象、特殊与一般、有限与无限等辩证关系,培养其辩证唯物主义观点,提高学生的直观想象以及数学建模的能力,掌握本课程所涉及的现代数学中的重要思想方法,为后续专业课程、其它相关学科的学习以及自主学习与职后发展奠定坚实的思想方法基础。
4:通过本课程的学习, 使学生对中学数学有关教学内容从理论和方法上有更深刻的认识,培养学生的终身学习和专业发展意识,以便能够高屋建瓴地掌握和处理中学数学教材;同时激发学生探索与求知的欲望,培养学生自主学习与职后发展的能力。
概率论是科学吗?
随机性

独立性与可交换性
上面的推导表明,在倾向理论中随机性概念事实上可以被归约为独立性概念,其实我们可以依据独立性将随机序列定义如下。让我们把所讨论的序列限定为由0和1构成的序列。如果一个序列是通过使某一条件集S重复出现而生成的,并且满足:
①S的各次重现都是独立的;
②所得的结果是0或1,而且 Prob(0)=p,对于某个确定值p,有0≤p≤1,
那么,我们就会说这样的一个序列是随机的。
......冯·米泽斯就不得不定义和使用独立聚合这一概念了。因此,他引入了两个概念“随机性”和“独立性”,它们是以相当不同的方式被定义的,尽管很显然这两个概念其实是同一个概念。这个事实在上面的定义中已经得到表明,那个定义实际上是把随机性概念归约为独立性概念。
《概率的哲学理论》p165
社会科学研究中如何保证随机性或独立性

频率:二项分布、泊松分布、平均分布、正态分布
实际的概率总是偏离(不同于)频率
通过构造统计量可以验证命题

回归模型
总体模型
我们从横断面分析开始。我们将假设我们可以从感兴趣的总体中收集一个随机的样本。假设有两个变量,x和y,我们想看看y如何随着x的变化而变化。有三个问题会立即出现。
第一,如果y受到除x以外的因素的影响呢?我们该如何处理这个问题呢?
第二,连接这两个变量的函数形式是什么?
第三,如果我们对x对y的因果效应感兴趣,那么我们如何区分它与单纯的相关性呢?让我们从一个特定的模型开始。
假设这个模型在总体中成立。方程2.25定义了一个线性双变量回归模型。对于涉及捕获因果效应的模型,左边的术语通常被认为是效应,右边的术语被认为是原因。公式2.25明确允许其他因素通过为误差项u包含一个随机变量来影响y。这个方程还通过假设y线性依赖于x,明确地模拟了函数形式。我们称
系数为截距参数,我们称
系数为斜率参数。这些都描述了一个总体,我们在实证工作中的目标是估计它们的价值。我们从未直接观察过这些参数,因为它们不是数据。然而,我们可以做的是使用数据和假设来估计这些参数。为此,我们需要可靠的假设来用数据准确地估计这些参数。在这个简单的回归框架中,所有决定y的未观察到的变量都由误差项u包含。 首先,我们做出了一个简化的假设,而不丧失一般性,
其中,E(.)是期望值算符。如果我们将u随机变量归一化为0,就没有任何影响了。为什么?因为
(截距项)的存在总是允许我们有这种灵活性。如果u的平均值与0不同,例如,说它是
,那么我们就调整截距。但是,调整截距对β1斜率参数没有影响。例如:
其中为
。新的误差项是
,新的截距项是
。但是,虽然这两个术语改变了,但斜率,
没有改变。
样本独立性
一个假设与我们对统计数据的基本处理吻合良好的假设涉及到由x值确定的总体的每个“切片”的误差项的平均值:

其中E(u|x)是“u给定x的条件期望值”。如果方程2.27成立,那么我们说u是独立于x的平均值。
这里的一个例子
假设我们正在估计学校教育对工资的影响,而u是未被观察到的能力。平均独立性要求
这样在八年年级教育、十二个年级教育和大学教育的不同总体的平均能力是相同的。因为人们根据自己未被观察到的技能和属性来选择投资上学的年限。然后结合这个新假设,E(u|x)=E(u)(要做的非平凡假设)和E(u)=0(归一化和平凡假设),可以得到以下新假设:

方程2.28称为零条件均值假设,是回归模型中的一个关键的识别假设。因为条件期望值是一个线性算子,E(u|x)=0意味着

它显示了总体回归函数是x的线性函数,或者Angrist和Pischke[2009]称之为条件期望函数。这种关系对于参数β1作为因果参数的直觉至关重要.
普通最小二乘OLS
给定关于x和y的数据,我们如何估计总体参数, ?设 是从总体中获得的随机样本。将任何观察结果插入总体方程中:
其中,u表示一个特定的观察结果。我们观察
,但无法观察
。我们只知道u就在那里。然后,我们使用了我们前面讨论过的两个总体限制:
可以得到
的估计方程。我们已经讨论到了第一个情况了。然而,第二个方法意味着x的平均值不会随着误差项的不同而变化。这种独立性假设意味着E(xu)=0,我们得到E(u)=0,和Cov(x,u)=0。请注意,如果Cov(x,u)=0,那么这意味着x和u是独立的。 接下来我们插入u,它等于
:
这是总体中有效决定
的两种条件。同样,请注意,这里的符号是总体概念。我们无法接触总体,我们只有总体的样本:

其中 和 是来自数据的估计值。这是两个未知数 和 中的两个线性方程。当我们通过这两个方程的以下样本性质时,回顾求和算子的性质。我们从方程2.29开始,并通过求和算子。

式中 是n个数的平均值{i:1,....,n}。
我们现在使用这个方程用斜率来写截距:

现在我们把
插入到第二个方程, 得到: 所以要求解的方程是

的公式很重要,因为它向我们展示了如何获取我们所拥有的数据并计算斜率估计。该估计 ,通常被称为普通最小二乘(OLS)斜率估计。当 的样本方差不为0时,它就可以计算出来。换句话说,如果 不是所有值都是常数,则可以计算。直觉是,x中的变化允许我们识别它在y中的影响。
这样就可以计算出截距值 , 。这是OLS截距估计,因为它是使用样本平均值计算的。请注意,它很简单,因为 在 中是线性的。
对于任何候选估计 , ,我们为每个i定义一个拟合值为

回想一下,i={1,…,n},所以我们有n个方程。这是我们对yi预测的值,给定了x=xi。但是有预测错误是因为y=yi。我们把这个错误称为残差,并在这里使用这个符号。因此残差等于:
注意:虽然残差和误差项都用u表示,但知道其中的差异很重要。残差是基于拟合 和实际值y的预测误差。因此,用任何数据样本都可以很容易地计算出残差。但u没有帽子是错误的术语,根据定义,它是由研究者没有观察到的事物决定的。虽然一旦通过回归和操作的几个步骤生成,残差就会出现在数据集中,但误差项将永远不会出现在数据集中。它是我们的模型没有捕获的我们结果的所有决定因素。假设我们通过对每个i的平方来衡量误差的大小。毕竟,平方将消除误差的所有负值,从而使一切都是正值。如果我们不希望正值和负值相互抵消,这在总结误差时变得很有用。所以让我们这样做:把误差平方,把它们加起来

这个方程称为残差的平方和,因为残差 。但残差是基于对斜率和截距的估计。我们可以想象对这些值的任何数量的估计。但如果我们的目标是通过选择 和来最小化残差的平方和呢?使用演积分,可以证明该问题的解产生的参数估计与我们之前得到的相同。一旦我们有了数字和给定的数据集,我们写OLS回归线:


让我们来看看这里的输出。首先,如果汇总数据,将看到使用Stata的预测命令和使用生成命令手动生成拟合的值。但是第二,让我们看看数据,并在上估计系数都接近于数据生成过程中内置的硬编码值。
图3、从y对x开始的双变量回归的图形表示
一旦我们有了估计系数和OLS回归线,我们就可以预测x的任何(合理)值的y(结果)。因此,插入x的某些值,我们可以立即计算出y的误差。
OLS使线性函数的误差最小化
事实上,对于所有线性估计来说,OLS都是y的最佳猜测,因为它最小化了预测误差。换句话说,任何估计都存在预测误差,但OLS的误差是最小的。请注意,当x=0时,截距是y的预测值。在该样本中,该值为-0.0750109.13,斜率允许我们根据以下公式预测x的任何变化的y的相应变化: 如果
,那么x增加一个单位,在我们的数值例子中
,因为
。 现在我们已经计算了
和
,我们得到了拟合的OLS,通过将x插入以下等式中,i=1,…n:

The OLS residuals are also calculated by:

大多数残差将不等于0(即,它们不在回归线上)。可以在图3中看到这一点。有些是正的,有些是负的。正残差表示回归线(以及预测值)低估了y的真实值,反之余数为负则代表回归线高估了真实价值。
回想一下,我们定义了的因变量y的拟合值 和残差ui, 。请注意,残差和拟合值之间的散点图关系创建了一个球形图案,表明它们不相关(图4)。这表明最小二乘法产生的残差与拟合值不相关。这里没有魔法,是最小二乘法基本规则。

OLS的代数性质
还记得我们是怎么得到 和 的吗?当包含截距项时,我们有:

OLS残差加总为零,


下表(表6)总结了这方面的输出。 请注意u、 和 列之间的差异。什么时候我们将这十个观测值相加,无论是误差项还是y的拟合值求和都不为零。但是残差和为零。正如我们所说,OLS系数的代数性质之一是最佳的,以确保残差和为零。 由于 的定义(我们也可以在表6中看到),我们可以取双方的样本平均值:

所以 ,因为残差和为零。同样,我们获得估计值的方法也会导致

解释变量和残差之间的样本协方差(因此样本相关性)始终为零(见表6)。


因为 是xi的线性函数,拟合值和残差也不相关(见表6);
最小二乘法要选择合适的
和
,使得这个属性成立。 第三个特性是,如果我们插入x的平均值,我们就可以预测y的样本平均值。也就是说,点
位于OLS回归线上,或者:

拟合优度
对于每一个观察,我们写下

将总平方和(SST)、解释平方和(SSE)和剩余平方和(SSR)定义为


时为 的样本方差; 是 的样本方差, 是 的样本方差;。用一些简单的操作重写方程2.34:

由于方程式2.34显示拟合值与残差不相关,我们可以写出以下方程式:

假设SST>0,我们可以定义 的总变化的分数,这是由 (或OLS回归线)解释的。

这叫做回归的R平方。可以证明它等于yi和 之间相关性的平方。因此 。 表明 和 之间没有线性关系, 表示一个完美的线性关系(例如,Yi=Xi+2)。随着 的增加, 越来越接近OLS回归线。
是一个有用的汇总度量,但它并没有告诉我们因果关系。 注意:如果试图估计某些因果效应,那么并不是在试图解释y的变化。 告诉我们 的变化有多少是由解释变量解释的。但是如果我们对单个变量的因果效应感兴趣, 就不再重要。
对于因果推断,我们需要方程2.28。 OLS的期望值。到目前为止,我们的动机很简单 使用总体模型进行回归。但我们的分析完全是基于数据样本的代数分析。所以,当我们对样本应用OLS时,无论基础模型如何,残差平均值为零。
但我们的工作越来越艰难。现在我们必须研究OLS估计的统计特性,参考总体模型并假设随机抽样。 估计在不同的数据样本中表现如何?例如,平均而言,如果我们反复取样,我们会得到正确的答案吗?我们需要找到OLS估计器的期望值——实际上是所有可能的随机样本的平均结果,并平均确定我们是否正确。这就自然而然地产生了一种称为无偏的特征,即 所有估计量的期望值

记住,我们的目标是估计β1 ,这是描述y和x之间关系的斜率总体参数。我们的估计 是针对特定样本获得的参数 的估计。不同的样本将产生不同的估计( )对于“真实”(和未观察到的)β1。无偏性意味着,如果我们可以从总体中抽取任意多个随机样本,每次计算一个估计值,估计值的平均值将等于 。
OLS无偏需要几个假设
线性假设
假设一个总体模型

其中 为未知总体参数。我们视x和u是一些数据生成过程生成的随机变量的结果。因此,由于y是x和u的函数,因此它们是随机的,那么y也是随机的。说明这一假设正式表明我们的目标是估计 。
随机抽样
我们有一个随机的样本大小为n,{(xi,yi):i=1,…,n},遵循总体模型。 我们知道如何使用这些数据通过OLS估计 。 因为每个i都是从总体中抽取的,我们可以为每个i写 :

注意,这里的ui是观察i未观察到的错误。这不是我们根据数据计算的残差。
解释变量中的样本变化
也就是说,xi上的样本结果并非都是相同的值。这与说x的样本方差不是零是一样的。实际上,这根本不是假设。如果xi的所有值都相同(即常数),我们就无法了解X如何影响总体中的Y。回想一下,OLS是y和x的协方差除以x的方差,因此如果x是常数,那么我们除以零,OLS估计量是未定义的。
零条件平均假设
可能是因果推理中最关键的假设。在总体中,给定解释变量的任何值,误差项的平均值为零:

这是证明OLS无偏的关键假设,一旦我们假设 不随x变化,零值就不重要。请注意,我们可以计算OLS估计值,无论该假设是否成立,即使存在潜在风险总体模型。
参考文档
Causal Inference:The Mixtape
https://zhuanlan.zhihu.com/p/519973276
https://zhuanlan.zhihu.com/p/394433686
大数定律与中心极限定理分享
问题:大家需要认真备课,讲课是一次很好的学习机会!
组 | 内容 | 关键问题 |
---|---|---|
1 | 柯西-施瓦茨不等式:对联合期望的边际约束 | 概念、证明、应用及R |
2 | 关于凸性的詹森不等式 | 概念、证明、应用及R |
3 | 马尔科夫、切比雪夫与切尔诺夫不等式 | 概念、证明、应用及R |
4 | 大数定律 | 概念、证明、应用及R |
5 | 中心极限定理 | 概念、证明、应用及R |
6 | 卡方分布与t分布 | 概念、证明、应用及R |
本讲回顾
作者介绍