首页手记【九月打卡】第17天 Python3入门机器学习

【九月打卡】第17天 Python3入门机器学习

标签：

Python 机器学习

①课程介绍

课程名称：Python3入门机器学习经典算法与应用入行人工智能
课程章节：9-5 ; 9-6
主讲老师：liuyubobobo

内容导读

第一部分逻辑回归添加多项式
第二部分逻辑回归添加正则化

②课程详细

第一部分逻辑回归添加多项式

有些数据非线性，不是线性的决策边界能够分割的。这时候就要引入多项式回归来拟合非线性数据的决策边界
导入函数

import numpy as np
import matplotlib.pyplot as plt

创建数据

np.random.seed(666)
X = np.random.normal(0, 1, size=(200, 2))
y = np.array(X[:,0]**2 + X[:,1]**2  < 1.5 , dtype='int')

对数据进行可视化处理

plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

进行逻辑化回归查看逻辑回归的结果

from nike.LogisticRegression import LogisticRegression
log_reg1 = LogisticRegression()
log_reg1.fit(X, y)

查看准确率

log_reg1.score(X, y)

0.605
可以看到拟合的不是很好
对该数据和建立的模型进行决策边界可视化
定义可视化函数

def plot_decision_boundary(model, axis):
    
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1, 1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1, 1),
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]

    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)

    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

可视化决策边界

plot_decision_boundary(log_reg1,[-4, 4 ,-4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

可以看到数据拟合地并不合适，究其原因在于开始的时候对数据的假设错了（线性数据）
接下来使用多项式回归
定义管道，和归一化处理

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler

def PolynomialLogisticRegression(degree):
    return Pipeline([
        ('poly',PolynomialFeatures(degree=degree)),
        ('std_scaler', StandardScaler()),
        ('log_reg', LogisticRegression())
    ])

调用函数，创建模型

poly_log_reg = PolynomialLogisticRegression(degree=2)
poly_log_reg.fit(X, y)

查看准确率

poly_log_reg.score(X, y)

1.0
可以看到准确率非常的高，
可视化决策边界

plot_decision_boundary(poly_log_reg,[-4, 4 ,-4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

第二部分逻辑回归添加正则化

在使用逻辑回归多项式之后，就会出现新地问题，过拟合，这时候就需要为逻辑回归添加正则化，来调解数据的过拟合，可以使用学习曲线进行观察。
创建对象

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(666)
X = np.random.normal(0, 1, size=(200, 2))
y =np.array(X[:,0]**2 + X[:,1] <1.5, dtype=int)
for _ in range(20):
    y[np.random.randint(200)] = 1

可视化随机数据

plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

对数据进行分割以便于查看准确率

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

直接使用多项式逻辑回归

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler

def PolynomialLogisticRegression(degree):
    return Pipeline([
        ('poly',PolynomialFeatures(degree=degree)),
        ('std_scaler', StandardScaler()),
        ('log_reg', LogisticRegression())
    ])

调用管道

Poly_reg = PolynomialLogisticRegression(degree=2)
Poly_reg.fit(X_train,y_train)
Poly_reg.score(X_test,y_test)

0.94
当dagree=2的时候准确率很不错，对新数据的泛化能力也很不错
可视化

plot_decision_boundary(Poly_reg, axis=[-4 ,4, -4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

接下来模拟过拟合的情况，对多项式调整为20的

Poly_reg2 = PolynomialLogisticRegression(degree=20)
Poly_reg2.fit(X_train,y_train)
Poly_reg2.score(X_train,y_train)

可视化决策边界

plot_decision_boundary(Poly_reg2, axis=[-4 ,4, -4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

可以看到数据有一些拟合过度了，接下来加入正则化参数C对过拟合的情况进行一些缓和
定义新的管道符

def PolynomialLogisticRegression(degree, C):
    return Pipeline([
        ('poly',PolynomialFeatures(degree=degree)),
        ('std_scaler', StandardScaler()),
        ('log_reg', LogisticRegression(C=C))
    ])

调用函数

Poly_reg4 = PolynomialLogisticRegression(degree=20, C=10, penalty='l2')
Poly_reg4.fit(X_train,y_train)
Poly_reg4.score(X_train,y_train)

进行可视化查看决策边界，以确定拟合的何不不合适

plot_decision_boundary(Poly_reg4, axis=[-4 ,4, -4, 4])
plt.scatter(X[y==0,0], X[y==0,1])
plt.scatter(X[y==1,0], X[y==1,1])
plt.show()

可以看到过拟合的情况得到了一部分的缓解

③课程思考

对于数据假设出错，就会使用错误的模型，就会导致准确率上不去，加入准确率一直上不去，可以试着从数据线性和非线性的两个角度考虑一下
有时候解决了一个问题就会相应的冒出一个新的问题，就像矛盾，矛盾的两个方面进行斗争，整合，共存，相互依赖，最后从旧的矛盾中诞生新的矛盾，这就是发展，我想算法的发展可能也会经理如此阶段。

④课程截图

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

黄义舜

学生

手记
篇

粉丝

4

获赞与收藏

32

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 27701 936

Python 算法入门教程

15个小节 30601 1181

Python 进阶应用教程

38个小节 73779 1151

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空