Coordinatewise Gaussianization: Theories and Applications

本文主要做出两点贡献，其一提出了变量高斯变换后的理论性质并证明了normal score 变换是一致收敛的，在维数p满足log(p)=o(n/log(n))条件下成立；其二，讲高斯变换应用于高斯耦合模型、最近邻分类以及距离相关变量选择三种方法中，在理论证明了变换后的变量是一致收敛的，并且变换后的变量使这三种方法有了更好的表现。

1.Introduction

高维回归模型的变量选择在过去的几十年中一直不断发展. 早前提出的经典算法如最佳子集方法，正则化回归方法等，存在一些缺陷. 比如，当p很大时，计算复杂或者计算难以实现；方法理论性充分，但是实践性较差；一些方法理论限定条件较为苛刻，实际难以达到；特定的问题对应特定的方法，缺少一般化选择方法等. 此外，对于多个单一方法选择出来的共同变量，真的就是真实变量吗？鉴于前人研究成果与现有问题，本文作者提出了一种新的变量选择方法——CSUV(Combined Selection and Uncertainty Visualizer). CSUV是将几种不同类型的变量选择方法结合起来，并将选择结果通过绘图的方式展现出来，来体现变量选择方法的不确定性.

2.Related work

CSUV同之前的变量选择方法类似，在子抽样数据集上操作，选择出现频率高的变量. 与其余混合方法不同的是，CSUV注重单个变量的不确定性，并绘图将这种不确定性表示出来，并在数值模拟部分，证明了通常情况下CSUV方法优于现有方法。

3.CSUV variable selection methodology

CSUV变量选择方法主要有一下3步：

用不同的变量选择方法拟合数据.
记变量被不同方法选择出的百分比为 .
根据选择出最终的变量集，例如变量集为 .

上述简单步骤存在以下问题：

选择不同方法如果类似(优化同样的目标函数)，会影响选择结果.
上述步骤认为每一种方法的选择结果是同等的，当不同方法表现力不同时，对它们选出的结果应该赋予不同的权重.
不同的方法可能同时出错，较高的会选出“伪”变量.

为了解决上述问题，对CSUV变量选择方法过程进一步改善，其过程编写成算法如下. 首先引入一个新的定义.

定义1 同号频率( (Relative same sign frequency) . 假定拟合模型集合M，变量的同号频率定义为：，其中是模型的第j个变量的估计系数，是示性函数.

Algorithm 1 CSUV

输入：变量选择方法，响应变量Y以及p维预测变量的n个观测值，算法重复次数B，分位数参数q，频数临界值t，训练数据集百分比w%，方法表现效果准则(performance measure).
输出：被选择出的变量集合 .
1：for b in {1, ..., B} do

2：随机选择w%数据作为训练集，剩余作为测试集，训练集数据用于变量选择方法，每一个方法用个不同的正则化参数， {1,..,R}. 对于每一个方法对应得到的拟合模型为，第k个模型选择出的变量集 { }，k {1,..., }.

3：每个方法选出的变量集 ,去重后得到变量集，R种方法得到的变量集为，下标重排后记为 .

4： if | |<| | ，对该模型的系数重新用OLS方法估计； Otherwise, 模型估计系数保持不变.

5：用测试集来检验模型的拟合效果，k {1,..., }，根据拟合效果的优劣性排序为 .

6：取前q%的模型， .

7：end for
8：重复B次，最终得到的拟合模型集记为 { }.

9：选择变量集 { }.

10：返回 .

一些关于变量选择方法的说明.

关于上述算法最后选出的变量的参数估计问题：变量个数少于观测值，用OLS方法估计；变量个数大于观测值个数，用岭回归估计参数.
关于拟合模型效果测度问题：选择MSE作为拟合效果准则，由于eBIC选出的变量较少，漏选了较多实际变量，尽管MSE是用于判断预测效果，但MSE也常用于变量选择.
关于W%取值问题：取50%，保证了测试集和训练集的样本数目一样得大，不会造成某一数据集数据偏多或偏少.
关于临界值取值为题：t=1/2，等价于选择M集合中非0系数的中位数的变量.
关于变量选择方法混合问题：本文中有3种设置：
(i)Lasso, MCP and SCAD (default) (ii)Lasso, Elastic Net, relaxed Lasso, MCP and SCAD
(iii)MCP.
关于分位数参数的取值问题：q取0或5，数值模拟证明q取0或5，结果没有什么区别，q取20结果与q=0相近，q取50，CSUV方法表现很差.
关于重复次数取值问题：B取100.

定义2 CSUV-m. 当算法1中的t=1/2时，CSUV方法被称为CSUV-m.

定义3 CSUV的解路径( solution path). CSUV的解路径将变量排序，如果，或者但 | |>| |，则有 .

是变量j在解路径的位置，| |是变量j在算法1中M集合中模型的估计系数的平均值的绝对值.

Algorithm 2 CSUV with a given model size

输入：，临界值s.
输出：被选出的变量集合.

根据和S得到解路径.
输出排好序的前s个变量，即 { }.

定义4 CSUV-s. 算法2的方法被称为CSUV-s，临界值s是算法1中变量集大小的中位数，
s=(| |,...,| |,...,| |,...,| |).

4 CSUV visualization of uncertainty

第四节内容介绍了算法1的输出结果的图形工具，图形中包括以下几个部分.

箱线图：对于算法1中的每一个变量的非0系数画出箱线图，并用须线标记出5分位数和95分位数，每个箱子的宽度是 . 一个箱型图在水平和竖直2个维度展示CSUV的输出结果,变量选择的不确定性由水平方向的箱子的宽度表示，系数估计的不确定性由竖直方向的箱线表示.
背景的灰度表示的大小，灰度越深，表示越大.
绿色实线是CSUV_m方法的临界，蓝色虚线是CSUV_s方法的临界. 的变量不在图中展示.
红色实心圆点是CSUV_m方法选出的变量集后，再拟合估计得到的估计系数.

下图为运用实际数据输出结果的基本图形.

下图同上图所含信息相同，但增加了琴图.

下图是在第一张图的基础上，增加了每一个变量的全部系数(包括0)的箱线图.

下图中的蓝色空心圆圈表示的cv方法选择出的变量的估计系数，最下面一行的百分比表示百分之多少单个变量选择方法选择出了变量j，比如100表示所有方法都选择了变量59.

对于研究“伪”变量问题，当变量j的估计系数的线图覆盖0时，该变量是不是作为“伪”变量被选择. 下图展示了4种不同的模型设定(第5节详细描述)，蓝色圆点表示变量j的线图不过0时，变量实际为“真”变量被选择出来的平均比率，红色三角形表示变量j的线图过0时，变量实际为“伪”变量却被选择出来的平均比率(不应该被选择出来)，所以蓝色圆点值越接近1越好，红色三角值越接近0越好.

5 Simulation study

本节的数值模拟分为模型设定数据模拟和真实数据模拟，将CSUV方法同其余方法做比较，并比较不同参数设置下CSUV的表现效果.

关于变量选择方法混合：本文中有 3种设置，相关方法的参数设定见下表：
(i)Lasso, MCP and SCAD (default) (ii)Lasso, Elastic Net, relaxed Lasso, MCP and SCAD
(iii)MCP.

关于对比的方法：将CSUV方法同eBIC和n/2 cross-validation方法进行比较. eBIC方法通过最小化信息准则选择拟合模型，C-V方法鉴于最小预测误差选择拟合模型，这两种方法是两种不同类型的方法，因此将CSUV方法同二者做比较.
Performance measures：用 F-measure，FP是“真”变量未选个数，FN是“伪”变量误选个数，TP是“真”变量被选出的个数，F值越大说明方法表现越好，F-measure公式为
数据设定：设定Y与X成线性关系，X服从，不同的模型设定对做不同的假设以及对系数做不同的设定，分别为Toeplitz 结构，block 结构，factor model以及以lasso为基础的调整模型等.
通过模型设定模拟和实际数据模拟，得到以下几点结论.
CSUV_m方法更适合做变量选择，CSUV_s方法更适合做预测.
q较小(0或5)时，CSUV方法表现效果相近.
单个变量选择方法表现效果不如混合多种不同方法，添加类似方法，对表现效果无影响，例如3种组合方法 (Lasso, MCP and SCAD)和5种组合方法 (Lasso, Elastic Net, relaxed Lasso, MCP and SCAD)效果类似，因为Lasso方法和 Elastic Net, relaxed Lasso两种方法类似(优化相同的目标函数).
通常情况，CSUV方法表现要优于eBIC和n/2 cross-validation方法.

但CSUV_m方法选出的变量个数较少，会遗漏实际应被选出的变量，预测效果较差，通常比其余方法多误选变量.

6 Conclusion

CSUV方法主要特点是没有特定性，具有一般性，并且利用绘图工具清晰地展现出变量选择的不确定性. CSUV方法的目的不在于选出最佳的变量集，而是通过子抽样汇总来自不同变量选择方法的拟合结果，并使用图形工具来说明变量选择和其系数估计中的不确定性。