多个自变量和非正态的Y做回归分析用什么方法?

2025-05-19 14:30:11
推荐回答(1个)
回答1:

你对线性回归(相关分析情况类似)分析的要求理解有误。首先,线性回归并不是要求自变量和因变量都服从正态分布,只是要求每一个自变量值所对应的因变量服从正态分布(For each value of the independent variable, the distribution of the dependent variable must be normal. 这是SPSS的原文),这个条件比较难以验证,因此一般在实际工作中不重点考虑这个问题。事实上,SPSS在线性回归分析中,仅要求自变量和因变量都是定量数据(The dependent and independent variables should be quantitative. Categorical variables, such as religion, major field of study, or region of residence, need to be recoded to binary (dummy) variables or other types of contrast variables.),并未提到要求自变量和因变量都服从正态分布,因为这个要求是没有道理的。你试想想,在很多情况下,自变量的数值是可以人为操控的(例如施肥量或农药量与谷物产量的关系),怎么可能一定服从正态分布?!

线性回归主要考虑的问题如下:
1、自变量和因变量之间是否存在线性关系。这一点可以通过散点图来验证。如果线性关系较弱,则不宜使用线性回归。
2、残差是否服从正态分布,这一点可以通过残差分析来验证。要求残差服从正态分布。
3、多个自变量之间是否存在共线性问题,这一点可以通过共线性诊断来验证。要求不存在明显的共线性。
如果以上三个条件都满足了,那么使用线性回归分析你的数据就不存在什么问题了。

将连续变量转化成有序或者二分类变量虽然谈不上绝对错误,但也应该是一个慎之又慎的选择,应该在穷尽所有手段仍无法解决时才该考虑。

顺便说一下,国内的很多统计参考书良莠不齐,谬误甚多,最好多看一些国外的参考资料。