设为首页收藏本站

开启辅助访问

EPS数据狗论坛»首页 › 软件交流 › 其他 › 使用Python训练SVM模型识别手写体数字

发新帖

查看: 929|回复: 1

[python] 使用Python训练SVM模型识别手写体数字

花果山的星星

285 主题	8233 金钱	9329 积分

发消息

发表于 2016-10-9 11:40:18 | 显示全部楼层 |阅读模式

支持向量机SVM(Support Vector Machine)是有监督的分类预测模型，本篇文章使用机器学习库scikit-learn中的手写数字数据集介绍使用Python对SVM模型进行训练并对手写数字进行识别的过程。

准备工作

手写数字识别的原理是将数字的图片分割为8X8的灰度值矩阵，将这64个灰度值作为每个数字的训练集对模型进行训练。手写数字所对应的真实数字作为分类结果。在机器学习sklearn库中已经包含了不同数字的8X8灰度值矩阵，因此我们首先导入sklearn库自带的datasets数据集。然后是交叉验证库，SVM分类算法库，绘制图表库等。

读取并查看数字矩阵

从sklearn库自带的datasets数据集中读取数字的8X8矩阵信息并赋值给digits。

查看其中的数字9可以发现，手写的数字9以64个灰度值保存。从下面的8×8矩阵中很难看出这是数字9。

以灰度值的方式输出手写数字9的图像，可以看出个大概轮廓。这就是经过切割并以灰度保存的手写数字9。它所对应的64个灰度值就是模型的训练集，而真实的数字9是目标分类。我们的模型所要做的就是在已知64个灰度值与每个数字对应关系的情况下，通过对模型进行训练来对新的手写数字对应的真实数字进行分类。

设置模型的特征X和预测目标Y

查看数据集中的分类目标，可以看到一共有10个分类，分布为0-9。我们将这个分类目标赋值给Y，作为模型的预测目标。

手写数字的64个灰度值作为特征赋值给X，这里需要说明的是64个灰度值是以8×8矩阵的形式保持的，因此我们需要使用reshape函数重新调整矩阵的行列数。这里也就是将8×8的两维数据转换为64×1的一维数据。

查看特征值X和预测目标Y的行数，共有1797行，也就是说数据集中共有1797个手写数字的图像，64列是经过我们转化后的灰度值。

将数据分割为训练集和测试集

将1797个手写数字的灰度值采用随机抽样的方法分割为训练集和测试集，其中训练集为60%，测试集为40%。

查看分割后的测试集数据，共有1078条数据。这些数据将用来训练SVM模型。

对SVM模型进行训练

将训练集数据X_train和y_train代入到SVM模型中，对模型进行训练。下面是具体的代码和结果。

使用测试集测对模型进行测试

使用测试集数据X_test和y_test对训练后的SVM模型进行检验，模型对手写数字分类的准确率为99.3%。这是非常高的准确率。那么是否真的这么靠谱吗?下面我们来单独测试下。

我们使用测试集的特征X，也就是每个手写数字的64个灰度值代入到模型中，让SVM模型进行分类。

然后查看前20个手写数字的分类结果，也就是手写数字所对应的真实数字。下面是具体的分类结果。

再查看训练集中前20个分类结果，也就是真实数字的情况，并将之前的分类结果与测试集的真实结果进行对比。

以下是测试集中前20个真实数字的结果，与前面SVM模型的分类结果对比，前20个结果是一致的。

使用混淆矩阵来看下SVM模型对所有测试集数据的预测与真实结果的准确率情况，下面是一个10X10的矩阵，左上角第一行第一个数字60表示实际为0，SVM模型也预测为0的个数，第一行第二个数字表示实际为0，SVM模型预测为1的数字。第二行第二个数字73表示实际为1，SVM模型也预测为1的个数。

从混淆矩阵中可以看到，大部分的数字SVM的分类和预测都是正确的，但也有个别的数字分类错误，例如真实的数字2，SVM模型有一次错误的分类为1，还有一次错误分类为7

作者：蓝琼

数据狗论坛-统计年鉴2022年汇总

回复

使用道具举报

310 主题	5221 金钱	8999 积分

发消息

发表于 2016-11-2 15:08:25 | 显示全部楼层

数据狗论坛-统计年鉴2022年汇总

回复

使用道具举报

发新帖

站长推荐 /1

客服中心

关闭

在线时间：
周一~周五
8:30-17:30
QQ群：
653541906
联系电话：
010-85786021-8017

在线咨询

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表