一切都要简单化 发表于 2019-6-27 15:39:29

Python 数据分析与挖掘的学习路径


1.目标确定
凡事预则立,不预则废。事先明确自己要处理事情,大体上有个方向。比如你准备分析当地房价,或是电商某种类数据,或是某个垂直领域的数据等。

2.数据获取
爬虫是Python初学者的必经之路,通过爬虫既可以获取数据,还可以理解Web的工作原理。前者可以作为数据分析的原料,后者可以作为数据Web可视化的基础。至于你使用Request,还是Scrapy,或是Selenium,可以随意一点,这不是公众号【调包】的重点,度娘或GitHub有很多范例供大家参考。

3.数据分析
《利用Python进行数据分析》该书详细讲述了Pandas的使用,用它可以实现上图流程之后的底层流程(数据整理、描述分析、洞察结论、报告撰写),这个路径可以称之“数据分析”。

4.数据挖掘
上图数据整理之后的上层路径(建模分析、模型测试、迭代优化、模型加载、报告撰写),这个路径可以称之“数据挖掘”。将会用到Sklearn、XGboost、Pytorch、TensorFlow、Spark、Hadoop等库或工具。

5.报告撰写
不管是数据分析还是数据挖掘,最终都要反映到报告中,可以在线动态展示数据、也可以是离线静态报表,或者插入PPT。这个阶段Matplotlib是基础,至于用其他可视化库或是非Python系的工具,可以随意点,重点在于你分析的结论能否让阅读者肯定。

6.需求反馈
从报告撰写再回到目标确定,这是一个产品迭代的闭环。类似于土木施工组织管理的PDCA。
页: [1]
查看完整版本: Python 数据分析与挖掘的学习路径