d

dgdzc

V1

2023/03/22阅读:68主题:默认主题

离散选择模型

《统计咨询》微信公众号预编辑

前言

离散选择模型(discrete choice model, DCM)是一种解释或预测从一组两个或多个离散备选方案中进行选择的便利方法。在医学中可以在离散选择实验设计的基础上,通过模拟不同疫苗\治疗方案等的选择环境来测量不同人群的偏好,从而获得不同人群在不同条件下的偏好。DCM的常见模型包括二元Logit/Probit、多项Logit/Probit、条件Logit模型、混合Logit、分层贝叶斯等。

基本原理

离散选择模型以随机效用理论为基础,即被调查者 在面临 个方案的选择时,其对某种选择方案 的偏好可以用效用值 来形容。效用值 是一个未知函数,但在大多数应用为了计算方直接将其假设为线性函数:

为随机误差项,代表不可观测的效用; 为固定效用项,代表可观测的效用。在通常情况下可观测的效用 往往被表示为:

代表个体 选择方案 变量的取值; 为对应的系数。根据随机效应最大化原理,每位被调查者在面临两个或多个选项之间的选择时,会选择可以使自身效用最大的选项。影响每位被调查者进行选择的是方案 与对比方案 效用的相对差值,而不是各个方案效用的绝对大小。简单来说假设有两个方案 ,方案 被个体 选中的概率 等价于事件 > 的概率,即:

二元Logit模型

假设残差 均服从Gunmbel分布,且两者之间相互独立,则属于Logistic模型,被调查者 选择方案 的概率可以表示为:

当被调查者只有两种选择时,如是否接受疫苗,以 代表接受疫苗 代表不接受疫苗 ,则被调查者n选择接受疫苗的概率为:

而我们可以发现二元Logit模型与常说的logistic回归模型本质上是同一模型,只是表达方式不同,即logistic模型是离散选择模型的典型代表。二元Logit模型与logistic模型两者在实际应用场景和结果上区别不大,每个自变量的估计系数含义两者是一样的。在最开始Luce提出logistic模型后,McFadden等人在logistic模型的基础上进一步构建了离散选择模型相关理论体系,最终形成成熟的Logit模型。Logit模型更多应用在多种方案存在的情况下选择某种方案的概率,而logistics模型更多应用在流行病学中探索某种疾病的危险因素,根据危险因素预测某疾病的发生概率等。

多项logit模型

若在选择情境中存在多个选项,则被调查者在 个选项中选择第 个方案的概率也可以表达为:

多项Logit模型需要满足无关方案的独立性(independence of irrelevant alternatives),又称IIA假设, 即模型中各个可选项之间是独立的不相关的。两个选项被选中的概率之比只和这两项有关,当增加或剔除备选项,并不会对概率的比例产生影响。如果模型满足IIA假设时, 个分类的多项Logit模型本质上是以某一组为参照的 个两两配对的二元Logit模型。

在实际应用中,IIA假设限制条件是很难满足的,而且多项Logit模型假设被调查者的偏好系数是固定值,忽略了被调查者偏好的差异性。如果Hausman检验发生不符合IIA假设时,需选择多项式Probit模型、混合Logit模型(随机参数Logit模型)等模型进行研究分析。

条件logit模型

当解释变量为方案相关的属性时,则被调查者在 个选项中选择第 个方案的概率也可以表达为:

条件Logit模型的估计方法与多项Logit 模型类似,但在条件Logit模型中,方案的一个属性 对于不同方案效应的影响是一致的的,系数 变化与方案无关。 在条件Logit模型中自变量类型为随个体和方案而变的方案属性,在分析中数据集格式为几行数据对应一个样本,如有3个方案(mode=1,2,3)被调查者进行选择(choice=1,已选;choice=0,未选),3个方案对应不同消耗时间(time)和费用(price)数据集格式下图所示:

混合Logit模型

混合Logit模型又称随机参数Logit模型,它考虑了随机偏好差异,能处理更为复杂的相关性,不受限于IIA假设。一般模型中自变量类型包含了个人属性和随个体和方案而变的方案属性。在混合Logit模型中效用分为三部分,包括 固定效用项、 随机效用项和 误差项,具体效用表现形式为:

其中误差项 允许选择项之间存在相关性,满足个体选择偏好差异。 常见的分布形式有正态分布、对数正态分布、均匀分布等。可以根据不同的情形假设不同的分布形态。如对于无限多分类变量往往假设服从正态分布;均匀分布适用性广,对于参数的符号等没有要求,尤为适用于二分类变量。 混合Logit模型中选择概率为:

其中 指系数 分布的参数, 为某种分布的概率密度函数,即该模型的选择概率可以看作是多项Logit模型选择概率的加权平均值,具体权重由 决定。 的分布形式通常为上述的几种,可根据实际情况选择合适的分布形式。待估参数 为变量,其均值 代表所有被调查对象对于某个选项的平均偏好,标准差 代表这种偏好的变异程度,标准差是否有统计学意义表示了这种偏好在被调查者中的总体变异是否存在。

模型拟合优度的判断

(1)伪

McFadden's ,也称伪 ,是基于与似然比检验相似思路去判断模型的常见拟合优度指标。伪 范围在0到1之间,越接近1,模型的拟合效果越好。在实际分析中如果侧重影响因素的分析,可以不太注重这个指标。

(2)模型预测准确率

可以根据预测对的样本数量除以总样本数量的值进行判断。

(3)AIC与BIC指标

AIC和BIC等指标也用于评判模型拟合优度,一般AIC和BIC越小表明模型的拟合优度越高,多用于比较多个模型的优劣。

分类:

数学

标签:

数学建模

作者介绍

d
dgdzc
V1