先看看商业智能 大数据的生意到底是啥?说白了就是数据分析(analytics)的生意,原来的商业智能(businessintelligences)也是分析的生意,如果把原来的商业智能称为分析1.0,那大数据其实就是分析2.0。 先看看商业智能是怎么样一个生意。 商业智能的场景是什么呢?到底能给客户带来什么使得其愿意为技术买单。简单来说就是帮助企业实现KPI管理,就是为需要管理的企业流程定义关键KPI指标,销售额多少、库存量多少、合同数量多少啊等等,商业智能系统可以把企业的过程数据(例如实际的订单)转换为相应KPI,要是手工来做这个KPI统计,企业不知道要花多少资源和时间才能完成。这个有个高大上的名字,叫做PerformanceManagement,或者Corporate Performance Management(CPM)。 这个需求场景几乎可以应用到所有企业,毫不费功夫复制到这个垂直行业,金融企业可以、电信企业可以、能源企业可以、零售企业可以,所有财富五百强的企业都要用,每个企业的运营人员都需要把握自己公司的关键流程。企业建设这样的系统的投资回报率无容质疑,市场需求是无疑的。 这对于产品经理来讲是个精美的产品模式,单一的模型、普世的刚需、海量的市场。 技术人员也开发了一套技术体系支撑这个商业需求。 首先是数据管理。数据要从各个独立的系统CRM、ERP等汇聚在一个池子,才能够进行全局指标的计算,这个池子就是数据仓库(data warehouse),汇聚的工具是数据集成工具(dataintergration)。这里首先要解决的一个技术难题就是数据量比原来单一系统的大,需要解决这个问题才能谈得上分析,Teradata 还有IBM DB2 DPF就用了分布式(简单起见先用这个词)的架构解决这个问题。 其次是数据分析。技术人员发现,KPI的分析其实是个多维分析的问题,比如说在对销售情况进行分析时候,对所有的交易,从年份纬度看到底每年销售了多少,或者从区域纬度看各个省销售了多少,或者从产品纬度看哪个产品销量最大,就是对同一套原始数据从不同纬度进行统计分析。这个技术最大的难题就是数据量太大,分析速度跟不上,一个企业可能一年下来会有数十甚至百亿级别的交易,要对这些数据进行求和平均,极为耗时,有些甚至需要数小时,这样实用性不高。为了解决这个问题,就开发了一种预先计算的机制,把指标先计算好,需要看指标时候直接给指标。这些难题都解决完了,还有一个问题就是数据的可视化,把指标通过仪表盘的模式展现给用户。 商业智能产业链
好,我们再来看看商业智能的整个产业链是怎么样的: 商业场景:PerformanceManagement, 同时有一套corporate performance management 的理论和方法,如何选流程,如何指标化。 应用产品:CPM 分析平台:BI平台(多维OLAP分析) 数据平台:数据仓库datawarehouse 工具:数据集成、数据质量 这块的软件市场约328亿美金(2014年),是一个足够大的市场空间,加上硬件及服务也能达到上千亿: Analyticapplications:21亿 CPM suit:27亿 BI Platform:89亿 Data warehouse:约150亿 DI&DQ:41亿 ——Source Gartner2015 我们看到,传统方式里,企业软件的赚钱模式是在平台,尤其是大平台,我们看到BI及数据仓库平台合计239亿美金,占比超过70%。 大数据平台失守
商业模式的颠覆总是来自外部,和意想不到的领域。 上面把BI和报表基本划等号是为了简单理解起见,其实以前也不是没有复杂的数据分析产品,上面没有包含另外一个分析的细分市场predictive analytics, 其平台就是AdvancedAnalytics Platform,就是不仅仅做KPI报表分析,还做更加深度的数据挖掘(大数据分析的老祖宗),SAS,SPSS这些厂家的产品可以做更为复杂的统计及模式发现等应用,但是这块一直发展不起来,仅仅约12亿美金的市场空间,主要是投资成本太高,也没有大量可复制的场景,仅仅在银行及电信领域应用比较多。 真正的引爆点来自和企业IT市场关系不大的互联网厂商,谷歌在2004年抛出了论文,雅虎的人在2005年弄了个开源的Hadoop,业界07、08年左右开始爆炒大数据概念,互联网企业开始引入Hadoop 架构,相关大数据的初创公司蜂涌而起,Cloudera于2009年成立,Hadoop正式版在2011年发布,企业市场也开始在2012和2013年以后开始慢慢接受大数据的概念。 有一点比较关键的就是大数据的发展是bottom up的,先由yahoo把google的东西抄了,用开源做了一套,因为是互联网来的,所以在企业领域是否能够大规模高效使用就只能由市场的发展本身来回答,这个是完全新的一种成长方式。而这里面最为重要的就是数据的存储和计算带来的技术创新,HDFS的分布式文件系统可以廉价的存储PB级的数据,HBase把传统数据仓库存储的数据量从TB延展到TB,而计算原来依赖于数据库的并行处理能力,而现在Map/Reduce提供了一个更为通用的分布式处理模式,意味着为无数的分析场景打开了可能性。 数据的存储与计算是整个大数据里面最为中核的平台,下面的数据也证明这点。我们看看目前大数据市场已经IPO以及被投资比较多的公司: IPO 1. Tableau(市值55亿),可视化 2. Qlik(市值26亿),可视化 3. Tibco(市值39亿),可视化 4. Splunk(市值67亿),日志分析 5. Hortonworks,Hadoop Most funded 1. Cloudera(融资1040M),hadoop 2. Palantir(融资950M), 分析平台 3. Mongodb(融资311M),NoSQL 4. Domo(融资250M),云BI 5. Mu Sigma(融资195M),大数据服务 6. Datastax(融资190M),NOSQL 7. MapR(融资174M),Hadoop Hadoop发行版Cloudera的投资已经超过10亿美金,即使按照市盈率10计算,其市值已经将近100亿美金!Hortonworks也在2015年正式IPO。Cloudera,Hortonworks,MapR的三架马车格局胜负已分,Cloudera是当之无愧的领头,MapR估计往后的日子越来越难。 另外一个投资重点就是NoSQL数据库,MongoDB和Cassandra(datastax)成为NoSQL市场的事实垄断者。 加上各厂商在2010-2011年大肆收购的MPP数据库,Greenplum,Vertica,Neteeza,Aster data,数据存储和计算平台基本格局已经确定,Hadoop/Cloudera 和NoSQL/MongoDB是目前胜出的两匹马。 这三条赛道基本跑完主赛。
|