使用Elastic search和Kibana进行数据探索（Python语言）

ssttllxwfifi · 发表于 2017-7-19 15:05:15

探索性数据分析（EDA）帮助我们认识底层的数据基结构及其动力学，以此来最大限度发掘出数据的可能性。EDA是提取重要变量和检测异常值的关键。尽管存在着很多种机器学习算法，但EDA仍被视为理解和推动业务的最关键算法之一。

其实有很多种方式都能够执行实现EDA，例如Python的matplotlib、seaborn库，R语言的ggplot2，而且网络上有很多很好的资源，例如John W. Tukey的“探索性数据分析”， Roger D. Peng 的“用R进行探索性数据分析”等，不胜枚举。

在本文中，我主要讲解下如何使用Elastic search和Kibana实现EDA。

原文作者：Supreeth Manyam，本文由36大数据（dashuju36）翻译，译者许娅楠。

36大数据专稿，本文由36大数据（dashuju36）翻译，不授权任何网站使用，除了36大数据网站和微信公众号，所有其他的转载均为侵权！

目录：

1. Elastic search
2. Kibana
3. 创建数据表

数据索引
链接Kibana
可视化

4. 搜索栏

1. Elastic Search (ES)

Elastic Search是一个开放源码，RESTful分布式和可扩展的搜索引擎。由于其简单的设计和分布式特性，Elastic Search从大量级数据（PB）中进行简单或复杂的查询、提取结果都非常迅速。另外相较于传统数据库被模式、表所约束，Elastic Search工作起来也更加容易。

Elastic Search提供了一个具有HTTP Web界面和无模式JSON文档的分布式、多租户的全文搜索引擎。

ES安装

安装和初始化是相对简单的，如下所示：

下载并解压Elasticsearch包
改变目录到Elasticsearch文件夹
运行bin/ Elasticsearch（或在Windows上运行bin \elasticsearch.bat）

Elasticsearch实例在默认配置的浏览器中进行本地运行http://localhost:9200。

2.Kibana

Kibana是一个基于Elasticsearch的开源数据挖掘和可视化工具，它可以帮助用户更好地理解数据。它在Elasticsearch集群索引的内容之上提供可视化功能。

安装

安装和初始化的过程与Elasticsearch类似:

下载并解压Kibana包
用编辑器打开config/ Kibana.yml，配置elasticsearch.url指向本地ElasticSearch实例所在位置
更改目录到Kibana文件夹
运行bin/ Kibana（或在Windows上运行bin \ kibana.bat）

Kibana实例在默认配置的浏览器中进行本地运行http://localhost:5601.

将运行Kibana的终端保持打开状态，可以保证实例不断的运行。你也可以使用nohup模式在后台运行实例。

3. 创建数据表

使用ES和Kibana创建仪表板主要有三个步骤。接下来我将会用贷款预测的实际问题的数据来示例如何创建一个仪表板。请注册该问题，以便能够下载数据。请检查数据字典以获得更多详细信息。

注：在本文中，我将使用python读取数据并将数据插入到Elasticsearch中，并通过Kibana进行可视化。

读取数据

import pandas as pdtrain_data_path = '../loan_prediction_data/train_u6lujuX_CVtuZ9i.csv'test_data_path = '../loan_prediction_data/test_Y3wMUE5_7gLdaTN.csv'train = pd.read_csv(train_data_path); print(train.shape)test = pd.read_csv(test_data_path); print(test.shape)

结果：

(614, 13)(367, 12)

3.1 数据索引

Elasticsearch将数据索引到其内部数据格式，并将其存储在类似于JSON对象的基本数据结构中。请找到下面的Python代码，将数据插入到ES当中。

请如下所示安装pyelasticsearch库以便通过Python索引。

pip install pyelasticsearchfrom time import timefrom pyelasticsearch import ElasticSearchCHUNKSIZE=100index_name_train = "loan_prediction_train"doc_type_train = "av-lp_train"index_name_test = "loan_prediction_test"doc_type_test = "av-lp_test"def index_data(data_path, chunksize, index_name, doc_type): f = open(data_path) csvfile = pd.read_csv(f, iterator=True, chunksize=chunksize) es = ElasticSearch('http://localhost:9200/') try : es.delete_index(index_name) except : pass es.create_index(index_name) for i,df in enumerate(csvfile): records=df.where(pd.notnull(df), None).T.to_dict() list_records=[records[it] for it in records] try : es.bulk_index(index_name, doc_type, list_records) except : print("error!, skiping chunk!") passindex_data(train_data_path, CHUNKSIZE, index_name_train, doc_type_train) # Indexing train dataindex_data(test_data_path, CHUNKSIZE, index_name_test, doc_type_test) # Indexing test dataDELETE /loan_prediction_train [status:404 request:0.010s]DELETE /loan_prediction_test [status:404 request:0.009s]

3.2 链接Kibana