设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1177|回复: 0

什么是数据挖掘?

[复制链接]

236

主题

3879

金钱

7173

积分

高级用户

发表于 2016-10-9 14:20:12 | 显示全部楼层 |阅读模式
由于数据科学刚刚兴起,数据科学家作为一种新生职业被提出,数据研究高级科学家Rachel Schutt将其定义为”计算机科学家、软件工程师和统计学家的混合体“。数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、电子通讯、法律税务等的各个专业领域。注意每一分类都需要相当的行业经验。
而要明白某一事物的本质,就需要通过另一些近似的事物特性对比来说明。
就好像你单独提问什么是男人?很难解释对不对。
所以咱们来举个栗子简单看看:
一、分析报告
在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合,咱来写一篇文章分析。
孙悟空有金刚不坏火眼金睛筋斗云七十二般变化加上定海神针身法灵活。
二郎神杨戬有三只眼缚妖索哮天犬银袍金甲加上三尖两刃四窍八环刀力量无穷。
所以在大战开始三百回合时候不相上下,结果后来二郎神派出天兵天将放火烧花果山让大圣慌了心神被偷袭得手
最后二郎神赢了。分析报告完成。
二、统计分析
大圣二战杨戬。这次在二位大战之前做个数理统计来预测结果。
首先根据历史样本史书记载发现两人在之前的五百年里打过100次,其中孙悟空赢60次。
然后有记录显示,之前孙悟空和牛魔王战斗的胜率是80%,而杨戬斗牛魔王胜率是70%。
所以可以得出综合预测总体胜率是孙悟空赢面大。
结论依靠历史记录,使用样本预测总体,根据经验做出假设。统计分析完成。
三、数据挖掘
孙悟空和杨戬终极决战。这次咱们根据两位的详细资料(如家庭出身、教育背景、工作经验、婚育情况等)让计算机做协同过滤关联分析。计算机通过数据清洗建模后发现:
贫苦出身的孩子一般比皇亲国戚更能吃苦所以功夫底子更好平时训练更加扎实。
战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。
在都得到大师指点的情况下,贫苦出身的孩子可以利用后天的努力来弥补先天悟性的欠缺。
样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢拈花惹草处处留情的神仙功夫好。
综上所述,我们可知道:
论出身两位大神不分伯仲。一个从石头出来,一个是凡人与神仙结合所生。
悟空的师父菩提老祖(准提道人)和二郎神的师父玉鼎真人的师父元始天尊同为鸿钧老祖的高足所以前者更胜一筹。
斗战胜佛战斗经验相对整日快活逍遥无忧无虑的二郎神来说更加丰富。
另孙行者由于样貌原因始终单身(好伤感)。
所以可以得出结论,这次大战孙悟空赢面大。数据挖掘完成。
四、最后总结:
分析报告一般是整个事件发生结束以后的总结(马后炮)。
统计分析能利用大量的历史样本来预测整个事件总体未来的走向(概率)。
数据挖掘则透过事件的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似无关事物之间背后的联系。
作者:Han Hsiao
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表