在回归分析中,R-squared的值应该取多大

如题所述

在回归分析中,我们时常会询问R-squared(R²)的值应该达到多少。过去我们讨论过R-Square的解释,并纠正了一个常见的统计误区,即较低的R-square不一定意味着模型效果差,而较高的R-square也不一定意味着模型效果就好。显然,“R-square应该多高”的答案就是…视情况而定。

本文将帮助你更准确地解答这个问题。但请注意,如果你问这个问题,那么你可能问错了。我会告诉你,应该问哪些问题,以及如何进行解答。

为什么说这是一个错误的问题?

那么R-squared究竟应该取多大?这个问题只有一个可能的答案,那就是R²必须等于使用线性模型可以解释响应变量变化的百分比,没有多少之分。

当你问这个问题时,你真正想知道的是:回归模型是否能达到你的目标?模型是否能够满足你的要求?

我将帮你问和回答正确的问题,这取决于你对线性回归模型的主要目标:

R-squared与预测变量及响应变量之间的关系

如果主要目标是确定哪些预测变量是显著的,以及如何预测因子的变化与响应变量的变化,那么R-squared与这个问题毫无关系。

如果你正确地指定了一个回归模型,R-squared的值将不会影响你对预测变量和响应变量之间关系的诠释。

假设你建立了输入和输出之间关系的模型,但是发现输入对应的P值是显著的,它的系数是2,所以无法拒绝原假设。

这些结果表明,在输入时增加1,那么与之对应的是在输出中平均增加2。这个解释是正确的,无论R-squared的值是25%还是95%!

问“平方应该多高?”,在这种情况下没有意义,因为它与这个问题毫无关系。较低的R-squared并不能否定一个显著的预测因子或改变系数的意义。无论R-squared的值有多大,它都是一个简单的统计量,不需要达到任何特定的大小以满足解释的有效性。

为了确认你的解释,你应该问哪些问题?

R-squared与响应变量预测

如果你的主要目标是获得精确的预测,那么R-squared将是一个值得考虑的问题。预测并不是简单地获得一个预测值,在预测中会包含一个误差;越是精确的预测,误差越少。

在这里之所以考虑R-squared,是因为较低的R-squared意味着模型误差较大。因此,较低的R-squared可以对不精确的预测进行预警。但是,你不能通过R-squared来确定你的预测是否能精确到你需要的程度。

这就是为什么“R-squared应该取多大?”是一个不恰当的问题。那么你应该问哪些问题呢?作为上面的问题的补充,你应该问:“预测区间是否足够精确?它能满足我的需求吗?”不必担心,Minitab软件可以使这个评估过程变得很容易。

预测区间和精度

预测区间表示的是在给定设置下,预测值可能的范围。这些区间考虑了预测时的平均误差,预测区间越窄,就意味着预测越精确。

例如,在以前的文章中,我使用体重指数(BMI)来预测身体脂肪的百分比,当BMI为18时,身体脂肪百分比的预测区间是16% - 30%。我们可以以95%的置信度确定,新观测值会落在这个范围内。

您可以使用专业领域的知识、规格限要求、客户要求等因素来确定预测间隔是否足够精确,以满足您的需求。这种方法可以直接评估模型的精度,远比随意选择一个R-squared值作为临界点更为合适。

针对身体脂肪比例的模型,我猜预测范围会很大,可能无法提供有意义的临床信息,但是医生会更了解这些情况的细节。

R-squared被高估了

当你询问R-squared应该取多大时,可能是因为你想确定,当前回归模型是否能够满足要求。我希望你有更好的方法来解决这这个问题而不是通过R-squared!

在分析中,R-squared之所以得到如此多的关注,是因为它是一个简单而直观的统计量。我在这里否定R-squared,这并不是说R-squared没有用处。举例来说,如果你执行一项研究,但是发现相似的研究通常有更高或更低的R-squared,你有必要调查R-squared差异的原因。
温馨提示:答案为网友推荐,仅供参考
相似回答
大家正在搜