锹形虫

V1

2022/08/24阅读:14主题:嫩青

【卫生统计学】直线回归的余弦相似度理解角度

从余弦相似度理解相关系数

直线相关系数又称为皮尔逊相关系数,我们的学习过程中给出了利用积差计算相关系数或者通过方差,即变异的角度理解。现在我们介绍一种更直观简单的方式来理解其本质。

1. 以向量的角度理解两指标关系

首先我们需要先回忆一下初高中学习到的关于余弦和三角函数的知识。余弦相似度[1]指的是一个笛卡尔坐标系中两个向量之间的余弦值,即为了描述两个向量之间的方向的相似性。我们从图1可以理解,对于点P点Q来说,其与原点的连线就表达了这两个点的方向,而两者方向的相似性,则可以用余弦值来表示(Cosine),夹角越小,则其相似性越高。要注意的是余弦值是对其方向相似性的评价,与向量的大小没有关系。

(图1)

当然我们知道P和Q两点在坐标系中应当是P(x1,y1),Q(x2,y2)。那此时根据欧几里得点积公式[2]我们有式1。当仅有P和Q两个点时,得到式1:

而余弦相似性公式不仅仅在二维点成立,其同样可以推广到高维度的点,如果此时扩展P、Q两点的维度到n维,那么其得到式2:

这两个高纬度的点P和Q其实就类似于在二维平面内的两组数据的分布,只是此时我们需要将两组数据看作两个向量即可。即A组数据由(a1,a2,a3...an)确定,而B组数据由(b1,b2,b3...bn)确定。那么再代入上述点积公式,我们就能算得两个高维点(两组数据)的余弦值了,而此时这个余弦值(Cosine_theta)同样表达了这两组数据在方向上的一致性。

2. 余弦相似度与相关系数

实际上上述理解方式并不是随意猜想,其在数学推理上依然是严谨的。我们知道皮尔逊相关系数的计算公式如式3:

而我们改写式2后也能得到式4:

对比式3式4不难发现其区别在于前者XY都减去了自己的均数,这是因为,对于式4,如果我们用X+1替代X,那么其余弦值Cosine_theta将会改变,而由于生活中的抽得的样本常存在着变异,为了平衡其位置带来的影响(即平移影响[3]),因此在式3中均减去均数以达到这种效果。那么此时对于式4式3,我们理解了其实是他们分别采用了`中心矩`和`原点矩`[4]。这也证明了皮尔逊相关系数是可以从余弦相似度的角度来判断其相关性大小及理解其内涵的。

3. 更直观的感受相关系数

我们下面看两组图,图片来自Scilab软件生成的标准正态分布三维图形及教材参考图[5],以帮助我们更好理解。我们将两组数据的分布放置在三维坐标系中,Z轴设定为其频率密度。即形成了下面两组图。

  1. 当相关系数r设定为0.01时:
(图2,r=0.01)
2. 当相关系数r设定为0.9时:
(图3,r=0.9)

如图所示,当两组正态分布的数据在空间中形成夹角时,其夹角的余弦值大小即可表达其相关程度的大小。而由数据本身分布所确定的两者的分布投影在XY轴平面上也就形成了二维平面的散点图的分布。这就是皮尔逊相关系数从余弦角度的理解。 另外我将Scilab的实现代码[6]贴在下方供大家参考。

#Scilab 3D normal plot code:
u=[1,2];d=[1,2];
r=0.9; #设定总体相关系数Rho
pi = 3.1415926 #在Matlab中省去此行
x=u(1)-3*d(1):0.05:u(1)+3*d(1);
y=u(2)-3*d(2):0.05:u(2)+3*d(2);
[X,Y]=meshgrid(x,y);
part1=(2*pi*d(1)*d(2)*sqrt(1-r^2))^(-1);part2=-1/(2*(1-r^2));
partx=(X-u(1)).^2./d(1)^2;
party=(Y-u(2)).^2./d(2)^2;
partxy=2*r.*(X-u(1)).*(Y-u(2))./(d(1)*d(2));
z=part1*exp(part2*(partx-partxy+party));
mesh(X,Y,z)

全文完,感谢浏览。

参考资料

[1]

余弦相似度: https://baike.baidu.com/item/余弦相似度/17509249

[2]

点积公式: https://baike.baidu.com/item/点积/9648528?fr=aladdin

[3]

平移不变性: https://blog.csdn.net/qq_41895003/article/details/105314214

[4]

矩: https://baike.baidu.com/item/矩/5340997

[5]

直线相关图形: 医学统计学第三版【陆守曾、陈峰】(P104)

[6]

二维正态分布的Matlab实现参考: https://blog.csdn.net/weixin_39942033/article/details/115808958

分类:

其他

标签:

医学

作者介绍

锹形虫
V1