线性模型(linear model )

如题所述

第1个回答  2022-06-25
针对给定变量集x={x...},线性模型,试图运用一组常量值w={w...},来构造一个函数方程,即:

写成向量形式为:

线性模型形式简单,已于建模,但是其蕴涵着机器学习中的一些重要基本思想,许多非线性结构引入到或映射到高维,可以转换为线性模型处理。而且,其对于不同变量的影响,可以直观的看出;

令:(其中n=d,m=n,X11、XM1均为1)

化简即得:

但是,现实生活中

往往不是满秩矩阵,这个便引入了正则化项(regularization)

对于线性回归,使用最小二乘法的一个实例:
先给定一组数据,为某产品x与y之间的对应关系;

建立一元n次模型:
程序如下:

拟合结果如下:
①、n=1:

②、n=2 和n=3:拟合较好

③、n=6:过度拟合

原理如下:

1、Feature scaling,数据正则化
不同的特征量由于单位不同,可能在数值上相差较大,Feature Scaling可以<b>去量纲</b>,减少梯度下降法的迭代次数,提高速度,所以在算法执行前通常需要Feature Scaling。直观上来说,考虑两个特征量,规范化前的椭圆很瘪,可能导致收敛的路径变长,数据规范化后使得椭圆较均匀,缩短收敛路径,如下:

2、Features and polynomial regression,合并特征量
比如,房子受面积影响较大,那么面积又有深度、长度、宽度等决定,则可以将3者统一为一个变量;

拟合结果如下:

Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归入一类,即广义线性模型(generalizedlinear model)。

此类回归的模型形式基本上都差不多,跟进因变量的不同可以有如下划分:

1.如果是连续的,就是多重线性回归;

2.如果是二项分布,就是Logistic回归;

3.如果是Poisson分布,就是Poisson回归;

4.如果是负二项分布,就是负二项回归。

Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。

一般步骤为:
相似回答