本文共 1941 字,大约阅读时间需要 6 分钟。
在我们之前的讨论中,提到了如何根据一组观测值 $(X, Y)$ 计算回归方程。然而,回归方程的有效性并非一概而论。为了评估回归模型的性能,我们需要一个客观的指标来衡量模型的拟合程度。这里,我们将深入探讨拟合优度与可决系数的计算方法,以及如何利用回归方程进行预测分析。
回归模型的性能可以通过残差平方和(RSS)与总离差平方和(TSS)之间的关系来衡量。具体来说,平方和分解式为:
[ \sum_{i=1}^n (Y_i - \bar Y)^2 = \sum_{i=1}^n (Y_i - \hat Y_i)^2 + \sum_{i=1}^n (\hat Y_i - \bar Y)^2 ]
其中,$\sum (Y_i - \bar Y)^2$ 是总离差平方和(TSS),$\sum (Y_i - \hat Y_i)^2$ 是残差平方和(RSS),而 $\sum (\hat Y_i - \bar Y)^2$ 则是回归平方和(ESS)。TSS 可以分解为 RSS 和 ESS 的和。
通过定义可决系数 $R^2$,我们可以用 RSS 与 TSS 的比值来衡量模型的拟合程度:
[ R^2 = 1 - \frac{\text{RSS}}{\text{TSS}} ]
$R^2$ 越大,说明回归模型对数据的拟合越好。理想情况下,当 $R^2 = 1$ 时,模型能够完美地拟合数据。
在一元线性回归问题中,可决系数 $R^2$ 的计算公式为:
[ R^2 = \frac{\sum (\hat Y_i - \bar Y)^2}{\sum (Y_i - \bar Y)^2} ]
为了简化计算,我们可以将数据进行中心化处理,令 $x_i = X_i - \bar X$ 和 $y_i = Y_i - \bar Y$。此时,$R^2$ 可以表示为:
[ R^2 = \frac{\sum (\hat \beta_1 x_i)^2}{\sum y_i^2} = \hat \beta_1^2 \left( \frac{\sum x_i^2}{\sum y_i^2} \right) ]
与此同时,$R^2$ 还与相关系数 $r$ 有直接关系:
[ r = \frac{\sum x_i y_i}{\sqrt{\sum x_i^2 \sum y_i^2}} ]
因此,
[ r^2 = \frac{(\sum x_i y_i)^2}{\sum x_i^2 \sum y_i^2} ]
结合 $\hat \beta_1$ 的计算公式:
[ \hat \beta_1 = \frac{\sum x_i y_i}{\sum x_i^2} ]
我们可以得到:
[ R^2 = r^2 ]
这意味着可决系数直接反映了变量之间的相关程度。
要使用回归方程进行预测,首先需要获得解释变量 $X$ 在某一特定水平 $x_0$ 下的预测值:
[ \hat Y = \hat \beta_0 + \hat \beta_1 x_0 ]
然而,从统计学的角度来看,这样的点估计并不能完全反映预测的准确性。为了更全面地评估模型的预测能力,我们需要构造预测值的置信区间。
在正态性假设下,预测值 $\hat Y_0$ 的分布为:
[ \hat Y_0 \sim N\left( \beta_0 + \beta_1 x_0, \left( \frac{1}{n} + \frac{(\bar X - x_0)^2}{\sum x_i^2} \right) \sigma^2 \right) ]
因此,在已知 $\hat Y_0$ 的情况下,真实值 $Y_0$ 的条件分布为:
[ Y_0 | \hat Y_0 \sim N\left( \hat Y_0, \left( 1 + \frac{1}{n} + \frac{(\bar X - x_0)^2}{\sum x_i^2} \right) \sigma^2 \right) ]
这使得我们可以在获得预测值的前提下,构造出 $Y_0$ 的置信区间,从而判断模型预测值的可靠性。
通过上述分析,我们掌握了以下关键点:
接下来,我们将探讨多元线性回归模型,这将涉及矩阵计算和假设检验等更为复杂的内容。
转载地址:http://rpbyz.baihongyu.com/