python线性回归模型代码,多元线性回归的原理
各位老铁们好,相信很多人对python线性回归模型代码都不是特别的了解,因此呢,今天就来为大家分享下关于python线性回归模型代码以及多元线性回归的原理的问题知识,还望可以帮助大家,解决大家的一些困惑,下面一起来看看吧!
如何用Python进行线性回归以及误差分析
数据挖掘中的预测问题通常分为2类:回归与分类。
简单的说回归就是预测数值,而分类是给数据打上标签归类。
本文讲述如何用Python进行基本的数据拟合,以及如何对拟合结果的误差进行分析。
本例中使用一个2次函数加上随机的扰动来生成500个点,然后尝试用1、2、100次方的多项式对该数据进行拟合。
拟合的目的是使得根据训练数据能够拟合出一个多项式函数,这个函数能够很好的拟合现有数据,并且能对未知的数据进行预测。
代码如下:
importmatplotlib.pyplot as plt
importnumpy as np
importscipy as sp
fromscipy.statsimportnorm
fromsklearn.pipelineimportPipeline
fromsklearn.linear_modelimportLinearRegression
fromsklearn.preprocessingimportPolynomialFeatures
fromsklearnimportlinear_model
'''''数据生成'''
x= np.arange(0,1,0.002)
y= norm.rvs(0, size=500, scale=0.1)
y= y+ x**2
'''''均方误差根'''
defrmse(y_test, y):
returnsp.sqrt(sp.mean((y_test- y)**2))
'''''与均值相比的优秀程度,介于[0~1]。0表示不如均值。1表示完美预测.这个版本的实现是参考scikit-learn官网文档'''
defR2(y_test, y_true):
return1-((y_test- y_true)**2).sum()/((y_true- y_true.mean())**2).sum()
'''''这是Conway&White《机器学习使用案例解析》里的版本'''
defR22(y_test, y_true):
y_mean= np.array(y_true)
y_mean[:]= y_mean.mean()
return1- rmse(y_test, y_true)/ rmse(y_mean, y_true)
plt.scatter(x, y, s=5)
degree= [1,2,100]
y_test= []
y_test= np.array(y_test)
fordindegree:
clf= Pipeline([('poly', PolynomialFeatures(degree=d)),
('linear', LinearRegression(fit_intercept=False))])
clf.fit(x[:, np.newaxis], y)
y_test= clf.predict(x[:, np.newaxis])
print(clf.named_steps['linear'].coef_)
print('rmse=%.2f, R2=%.2f, R22=%.2f, clf.score=%.2f'%
(rmse(y_test, y),
R2(y_test, y),
R22(y_test, y),
clf.score(x[:, np.newaxis], y)))
plt.plot(x, y_test, linewidth=2)
plt.grid()
plt.legend(['1','2','100'], loc='upper left')
plt.show()
该程序运行的显示结果如下:
[-0.16140183 0.99268453]
rmse=0.13, R2=0.82, R22=0.58, clf.score=0.82
[ 0.00934527-0.03591245 1.03065829]
rmse=0.11, R2=0.88, R22=0.66, clf.score=0.88
[ 6.07130354e-02-1.02247150e+00 6.66972089e+01-1.85696012e+04
......
-9.43408707e+12-9.78954604e+12-9.99872105e+12-1.00742526e+13
-1.00303296e+13-9.88198843e+12-9.64452002e+12-9.33298267e+12
-1.00580760e+12]
rmse=0.10, R2=0.89, R22=0.67, clf.score=0.89
显示出的coef_就是多项式参数。如1次拟合的结果为
y= 0.99268453x-0.16140183
这里我们要注意这几点:
1、误差分析。
做回归分析,常用的误差主要有均方误差根(RMSE)和R-平方(R2)。
RMSE是预测值与真实值的误差平方根的均值。这种度量方法很流行(Netflix机器学习比赛的评价方法),是一种定量的权衡方法。
R2方法是将预测值跟只使用均值的情况下相比,看能好多少。其区间通常在(0,1)之间。0表示还不如什么都不预测,直接取均值的情况,而1表示所有预测跟真实结果完美匹配的情况。
R2的计算方法,不同的文献稍微有不同。如本文中函数R2是依据scikit-learn官网文档实现的,跟clf.score函数结果一致。
而R22函数的实现来自Conway的著作《机器学习使用案例解析》,不同在于他用的是2个RMSE的比值来计算R2。
我们看到多项式次数为1的时候,虽然拟合的不太好,R2也能达到0.82。2次多项式提高到了0.88。而次数提高到100次,R2也只提高到了0.89。
2、过拟合。
使用100次方多项式做拟合,效果确实是高了一些,然而该模型的据测能力却极其差劲。
而且注意看多项式系数,出现了大量的大数值,甚至达到10的12次方。
这里我们修改代码,将500个样本中的最后2个从训练集中移除。然而在测试中却仍然测试所有500个样本。
clf.fit(x[:498, np.newaxis], y[:498])
这样修改后的多项式拟合结果如下:
[-0.17933531 1.0052037 ]
rmse=0.12, R2=0.85, R22=0.61, clf.score=0.85
[-0.01631935 0.01922011 0.99193521]
rmse=0.10, R2=0.90, R22=0.69, clf.score=0.90
...
rmse=0.21, R2=0.57, R22=0.34, clf.score=0.57
仅仅只是缺少了最后2个训练样本,红线(100次方多项式拟合结果)的预测发生了剧烈的偏差,R2也急剧下降到0.57。
而反观1,2次多项式的拟合结果,R2反而略微上升了。
这说明高次多项式过度拟合了训练数据,包括其中大量的噪音,导致其完全丧失了对数据趋势的预测能力。前面也看到,100次多项式拟合出的系数数值无比巨大。人们自然想到通过在拟合过程中限制这些系数数值的大小来避免生成这种畸形的拟合函数。
其基本原理是将拟合多项式的所有系数绝对值之和(L1正则化)或者平方和(L2正则化)加入到惩罚模型中,并指定一个惩罚力度因子w,来避免产生这种畸形系数。
这样的思想应用在了岭(Ridge)回归(使用L2正则化)、Lasso法(使用L1正则化)、弹性网(Elastic net,使用L1+L2正则化)等方法中,都能有效避免过拟合。
下面以岭回归为例看看100次多项式的拟合是否有效。将代码修改如下:
clf= Pipeline([('poly', PolynomialFeatures(degree=d)),
('linear', linear_model.Ridge())])
clf.fit(x[:400, np.newaxis], y[:400])
结果如下:
[ 0. 0.75873781]
rmse=0.15, R2=0.78, R22=0.53, clf.score=0.78
[ 0. 0.35936882 0.52392172]
rmse=0.11, R2=0.87, R22=0.64, clf.score=0.87
[ 0.00000000e+00 2.63903249e-01 3.14973328e-01 2.43389461e-01
1.67075328e-01 1.10674280e-01 7.30672237e-02 4.88605804e-02
......
3.70018540e-11 2.93631291e-11 2.32992690e-11 1.84860002e-11
1.46657377e-11]
rmse=0.10, R2=0.90, R22=0.68, clf.score=0.90
Python实现岭回归(Ridge Regression)
Python实现岭回归(Ridge Regression)是一种通过L2正则化解决线性回归过拟合问题的经典算法。本文将从原理、算法流程到实际代码实现进行详细介绍。
一、原理和流程
岭回归通过引入L2正则化项,限制模型参数范围,避免过拟合。其优化目标是损失函数加上正则化项的和,参数通常通过解析解获取。预测时,需对新样本标准化处理。
二、正则化项与模型优化
正则化项作为惩罚项,控制模型复杂度,L1和L2正则化分别通过系数稀疏化和参数平滑来达到不同效果。正则化系数λ的选取对模型性能至关重要,通常通过交叉验证确定。
三、Python实现
1.导入必要库,如常见的数学和机器学习库。
2.自定义Ridge回归类,包含初始化参数、模型训练(解析解求得参数)、预测和模型评估等功能。
3.通过对比自定义模型与sklearn库中的Ridge,验证实现的准确性。
4.使用生成的数据集测试模型效果,可视化预测结果。
四、实战演示
本文提供的完整源码将展示如何构建岭回归模型,包括数据预处理、模型训练和性能评估等步骤,以直观展示算法在实际应用中的表现。
python怎么学习
学习Python编程技术的流程与步骤,自学与参加培训学习都适用。
一、清楚学习目标
无论是学习什么知识,都要有一个对学习目标的清楚认识。只有这样才能朝着目标持续前进,少走弯路,从学习中得到不断的提升,享受python学习计划的过程。
虽然目前的编程语言有很多,但是基础语法上的概念,本质上都是相通的。可以做到一通百通。所以没有必要为了学哪门语言纠结太多。
python是目前市面上,我个人认为是最简洁&&最优雅&&最有钱途&&最全能的编程语言,没有之一。所以既然你决定了要学习python,那么就需要先下一个决心,至少决定要作为自己的主力语言。
python是全能语言,社区庞大,有太多的库和框架。你只需要找到合适的工具来实现想法,省去了造轮子的精力。
coder可以写尽可能少的代码来实现同等的功能。“人生苦短,我用python”是至理名言。
如果实现一个中等业务复杂度的项目,在相同的时间要求内,用java实现要4-5个码农的话,用python实现也许只需要1个。这就是python最大的优势了。
二、基本python知识学习
1.了解Python是什么,都能做些什么?
2.知道什么是变量、算法、解释器
3. Python基本数据类型
4.列表和元组的操作方法
5.字符串操作方法
6.基本的字典操作方法
以上这些可以略微掌握之后就进行下一步,遇到忘记不会的可以再参考一下书和笔记。
虽然看书学编辑是效率最低的事情。且不说书的内容基本过时。就是比较较的翻译也很晦涩,照书写了代码跑不通,不断报错。是很打击学习积极性的。
不过,介绍语法的基础书,还是可以买一本,作为手册查阅之用。这类基础书籍买一本就好,找个周末休息时间,一天便可看完。
三、掌握Python的条件、循环和相关的执行语句
任何知识它的基础知识都是有些枯燥的,现在我们就可以动手来做一些逻辑层面的东西了。掌握 if、else、elif、while、for、continue、break和列表推导式等这些语句的使用,还有程序中的异常处理。
四、面对对象知识
面对对象OOP,更高层次的Python程序结构,代码的重用避免代码冗余,打包你的代码,函数的参数、作用域等。
类,可以帮助我们减少大量的开发时间,提高编程的效率,对中大型项目十分关键。
五、项目实践
在这个阶段,一定要多动手实践,查找和处理过程中遇到的错误和异常,遇到问题多上网搜索,也可以参考公众号内的一些文章,或者加上咱们文章下方的老师领取合适的项目实例。
在成功的解决了这些问题之后,会有一种很大的成就感,这样一个良性循环,才是你学习Python这类程序语言的最大动力。
以上是小姐姐总结学习Python的步骤和流程。当然参加我们的Python培训课程,可以更快速、系统全面地掌握Python的各种知识。通过课后习题,让大家动手动脑的参与,课后问题解答会让你茅塞顿开。
培训班还会有很多实用的Python项目,从零开始带领大家一块解决项目遇到的问题,避免浪费大量精力和时间。最终让大家可以自行编写想要的各种Python程序。
六:缺点
当然任何一门语言都有缺点,Python也不例外。小姐姐认为学习一门语言不仅需要清楚的知道学习步骤,做到心中有规划。也需要适当的了解一下他的缺点,也是为了更好的掌握、完善。
1、第一个缺点就是运行速度和C程序比要慢很多,因为Python是解释型语言,代码在执行时会一行一行地翻译成CPU能理解的机器码,这个翻译过程非常耗时,所以很慢。
2、第二个缺点就是代码不能加密。如果要发布你的Python程序实际上就是发布源代码,还好我们大部分用python是来写应用程序,给用户提供服务的,用户其实不需要也不关心你的源码。
文章到此结束,如果本次分享的python线性回归模型代码和多元线性回归的原理的问题解决了您的问题,那么我们由衷的感到高兴!