CPDA 数据分析师如何解释相关系数
相关系数的符号和值描述了两个变量之间关系的方向和大小。
数据中的相关系数值在-1到1之间。
相关系数的值越大,线性关系越强。
相关系数为 -1 或 1 表示强线性关系。
弱线性关系由相关系数等于 0 表示。
正相关意味着如果一个变量变大,另一个变量就会变大。
负相关意味着如果一个变量变大,另一个变量就会变小。
请记住,皮尔逊积矩相关系数仅衡量线性关系。 因此,相关性为 0 并不意味着两个变量之间的关系为零。 相反,它意味着零线性关系。 (两个变量可能同时具有零线性关系和强曲线关系。)
散点图和相关系数的解释
为了让CPDA同学快速理解散点图相关系数,我们用实例来讲解数据分析散点图系数的介绍。 散点图显示不同的数据模式如何产生不同程度的相关性。
从散点图中我们可以清楚地看到几个点。
当图中直线的斜率为负时,相关性为负; 否则为负值。 反之亦然。
当数据点恰好位于一条直线上时(r = 1.0 和 r = -1.0),就会出现强相关性。
随着数据点变得更加分散,相关性变得更弱。
如果数据点属于随机模式,则相关性为零。
相关性受到异常值的影响。 将散点图与散点图进行比较。 图中的单个异常值会显着降低相关性(从 1.00 到 0.71)。
下面CPDA数据分析师给出了计算乘积矩相关系数(r)的常用公式。
乘积矩相关系数。 两个变量之间的相关性 r 为:
r =Σ(xy)/sqrt [(Σx 2)*(Σy 2)]
其中 Σ 是求和符号,x = xi - x,xi 是观测值 i 的 x 值,x 是平均值 x 值,y = yi - y,yi 是观测值 i 的 y 值,y 是平均值 y 值。
下面的公式使用总体平均值和总体标准差根据总体数据计算总体相关系数 (ρ)。
总体相关系数,两个变量之间的相关性ρ为:
ρ=[1/N]*Σ{[(Xi-μX)/σX]
* [(Yi-μÝ)/σÿ]}
其中,N 是总体中观测值的数量,Σ 是求和符号,X i 是观测值 i 的 X 值,μ μ y 是变量 Y 的总体均值,σ X 是 X 的总体标准差, σ y 是 Y 的总体标准差
以下公式使用样本均值和样本标准差根据样本数据计算样本相关系数 (r)。
样本相关系数。 两个变量之间的相关性 r 为:
r = [1/(n-1)] *Σ{[((xi - x)/sx]
*[(yi - y)/sy]}
其中 n 是样本中的观测值数量,Σ 是求和符号,xi 是观测值 i 的 x 值,x 是 x 的样本均值,yi 是观测值 i 的 y 值,y 是 y 中的样本均值,sx 是 x 样本标准差的样本均值,sy 是 y 样本标准差。
样本相关系数的解释取决于样本数据的收集方式。 对于大型简单随机样本,样本相关系数是总体相关系数的无偏估计。
后两个公式均可以由该公式推导出来。 当数据分析师拥有整个总体的数据时,请使用第一个或第二个公式。 当数据分析师只有样本数据但想要估计总体中的相关性时,使用第三个公式。 如有疑问,请使用公式。
CPDA 数据分析师很少需要手动计算相关系数。 许多软件包(例如 Excel)和大多数图形计算器都具有可以为您执行此操作的关联函数。
返回目录