设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 964|回复: 0

[其他] 分析泰坦尼克号沉船数据 机器学习告诉你谁获救概率更大

[复制链接]

248

主题

8501

金钱

1万

积分

资深用户

发表于 2016-9-28 17:00:04 | 显示全部楼层 |阅读模式


1、实验流程

让我们假设这样一个略显沉重的应用场景:泰坦尼克号沉船事件。通过分析泰坦尼克号沉船事件幸存者和丧生者的数据,机器学习是否能够判断拥有什么样的属性的人有更大的概率获救 ?


2、数据准备


原始数据

将数据导入MaxCompute,

PassengerId:用户的ID号

Survived:乘客是否获救,“1”表示获救,“0”表示没有获救。目标队列(target)

Pclass:乘客的社会阶层,“1”表示Upper,“2”表示Middle,“3”表示Lower

Sex:乘客的性别,“1”表示男,“0”表示女

Age:乘客的年龄

sibsp:乘客在船上的配偶数量或兄弟姐妹数量

parch:乘客在船上的父母或子女数量

fare:乘客的船费

cabin:是否住在独立的房间,“1”表示是,“0”为否

embarked:表示乘客上船的码头距离泰坦尼克出发码头的距离,数值越大表示距离越远


3、搭建实验流程

实验流程

1) 首先将数据集按照 7 : 3 进行拆分,一部分作为 titanic 训练集,一部分作为预测集。

2) 将数据进行标准化处理,去除量纲对于数据造成的干扰。

3) 训练数据通过逻辑回归 LR 算法生成模型。

4) 对预测集进行预测。

5) 通过 ROC 曲线和混淆矩阵来对结果进行评估。


4、评估结果

混淆矩阵结果

混淆矩阵结果分析

说明:

1. 正确率:预测正确的正例个数占预测为正例的比例,即 P=TP/(TP+FP);

2. 召回率: 预测正确的正例个数占实际正例的比例,即 R=TP/(TP+FN);

3. F1 指标: P 和 R 的中权调和平均,即 F1=2PR/(P+R) 。当 F1 较高时说明实验方法比较理想;

ROC 曲线评估结果


ROC 曲线结果分析

说明:

1. TPR=TP/(TP+FN);

2. FPR=FP/(FP+TN);

3. ROC 曲线:

① Y 轴: TPR; X 轴: FPR ;
② (0,1):FRP=0,TPR=1 。 FN=0,FP=0 ,将所有样本都正确分类;
③ (1,0): 即: FPR=1,TPR=0, 预测结果相反,正变负,负变正;
④ (0,0):FRP=TPR=0 ,将所有样本划分为负样本;
⑤ (1,1): 所有样本划分为正样本;
⑥ ROC 曲线越接近左上角,该分类器越好;

4. y=x ,随机猜测,一半正样本,一半负样本;

5. AUC:ROC 曲线下面积,应该介于 0.5~1 之间。 AUC 越大,分类器越好;


5、模型分析

逻辑回归生成模型:


模型分析

根据 Logical regression 的特性, model 输出的是每个特征的线性组合。 3.199 为常数项,不予考虑。其它系数绝对值越大说明对结果影响越大。通过这一结论得出 age 、 sex 和 pclass 对于结果影响最大。

根据 sigmoid 函数得出负号系数的绝对值越大其结果的正例可能性越大。所以我们可以得出结论, age 、 pclass 和 sex 的值越小,目标值越大。

也就是有钱人家的女人和小孩有更大的获救概率。

通过真实数据比对也印证了我们的分析结果:


来源:大数据文摘



您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表