【相关系数r的第二个公式】在统计学中,相关系数r是用来衡量两个变量之间线性关系强度和方向的一个重要指标。通常,我们最常接触到的相关系数公式是基于协方差与标准差的比值,即:
$$
r = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}
$$
然而,除了这个常用公式之外,还有一个等价但形式不同的表达方式,被称为“相关系数r的第二个公式”。它通过原始数据的乘积、平方和以及总和来计算相关系数,适用于没有计算器或需要手动计算的情况。
一、相关系数r的第二个公式
相关系数r的第二个公式为:
$$
r = \frac{n\sum xy - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}
$$
其中:
- $ n $ 是样本数量;
- $ x $ 和 $ y $ 分别是两个变量的观测值;
- $ \sum xy $ 是所有$ x_i y_i $ 的和;
- $ \sum x $ 和 $ \sum y $ 分别是$ x $ 和 $ y $ 的总和;
- $ \sum x^2 $ 和 $ \sum y^2 $ 分别是$ x $ 和 $ y $ 的平方和。
这个公式的优势在于不需要先计算均值和标准差,而是直接利用原始数据进行计算,适合教学或手动计算时使用。
二、总结与对比
项目 | 第一个公式(协方差法) | 第二个公式(乘积和法) |
公式 | $ r = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y} $ | $ r = \frac{n\sum xy - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}} $ |
优点 | 更直观,便于理解协方差与标准差的关系 | 直接使用原始数据,适合手动计算 |
缺点 | 需要先计算均值、方差和协方差 | 计算过程较为繁琐,容易出错 |
应用场景 | 数据分析、统计软件中广泛使用 | 教学、手动计算、小样本情况 |
三、实际应用示例
假设我们有以下两组数据:
x | y |
1 | 2 |
2 | 4 |
3 | 6 |
4 | 8 |
计算相关系数r:
- $ n = 4 $
- $ \sum x = 10 $
- $ \sum y = 20 $
- $ \sum xy = (1×2) + (2×4) + (3×6) + (4×8) = 2 + 8 + 18 + 32 = 60 $
- $ \sum x^2 = 1 + 4 + 9 + 16 = 30 $
- $ \sum y^2 = 4 + 16 + 36 + 64 = 120 $
代入第二个公式:
$$
r = \frac{4×60 - 10×20}{\sqrt{[4×30 - 10^2][4×120 - 20^2]}} = \frac{240 - 200}{\sqrt{[120 - 100][480 - 400]}} = \frac{40}{\sqrt{20×80}} = \frac{40}{\sqrt{1600}} = \frac{40}{40} = 1
$$
这说明x与y之间存在完全正相关关系。
四、结语
相关系数r的第二个公式虽然计算步骤较多,但在某些情况下更具实用性。它不仅帮助我们更深入地理解相关系数的数学本质,也为教学和实践提供了另一种计算路径。掌握这一公式有助于提升对统计分析的整体理解能力。