“忽如一夜春风来,千树万树梨花开”,似乎在一夜之间,大数据就红遍了南北半球,在神州大地更是一时风头无两;与此同时,大数据也被神化得无处不在,无所不包,无所不能。这里面有认识上的原因,也有故意忽悠的成份。鞭者以为,越是在热得发烫的时候,越是需要有人在旁边吹吹冷风。在这里谈谈大数据的局限性,并非要否定其价值。相反,只有我们充分认识了大数据的特点和优劣势,才能更好地利用大数据,充分挖掘和发挥其价值。
肺话不多说,直接上靶子,众位数据君可以举枪瞄准了。
先阐述一个观点:大数据本身并没有也不直接产生价值,只有对其进行有效地管理、加工,挖掘出隐藏在其中的有用信息并加以合理、有效地利用,才能使其充分发挥作用,产生价值。这一观点构成了以下阐述大数据局限性的基础,如果你不认可这一基础,那么请就此打住,别浪费你的宝贵时间了。基于这种价值导向的衡量标准,大数据本身及其管理、加工、应用均具有多方面的局限性。
1、数据噪声:与生俱来的不和谐
大数据之所以为大数据,首先是因为其数据体量巨大。然而,在这海量的数据中,并非所有的数据都是有用的,大多数时候,有用的数据甚至只是其中的很小一部分。随着数据量的不断增加,无意义的冗余、垃圾数据也会越来越多,而且其增长的速度比数据信息更快。这样一来,我们寻求的重要数据信息或客观真理往往会被庞大数据所带来的噪声所淹没,甚至被引入歧途和陷阱,得出错误的结论。
2、 真实性:不得不接受的虚假
“引领我们进入困局的并不是我们不知道的事物,而是我们知道、但不那么真实的事物。”真实性是一切数据价值的基础,然而这同时也是大数据的一大先天性缺陷。
网络是大数据最重要的来源之一,而网络本身就充斥着大量的虚假信息。例如,网络数据中存在着大量的虚假个人注册信息、假账号、假粉丝、假交易、灌水贴及虚假的意思表示等。这种失真是由网络本身的特性决定的,比如说,绝大多数社交网站很难也不会对会员注册信息的真实性进行全面核查,电商平台也无法控制一人注册多账号,或账号与实际消费个体的非对应关系(想想你家有没有共用一个宽带或电商账号的情况)。
除了网络数据,即便是通过原始方法采集的个人信息数据也无法保障其真实、准确。就拿电信运营商来说,即便推行了实名制,但圈内人都知道,数据质量与期望仍有相当差距。
可以预见,在相当长的时间内,即使最优秀的数据科学家、最先进的数据处理方法也无法消除或修正某些数据固有的错误和不足,对大数据真实性的追求无疑是摆在我们面前的又一挑战。
3、 代表性:永不可能的全样本
迈尔·舍恩伯格在《大数据时代》一书中阐述的一个核心观点便是,大数据是全样本,因此不再依赖随机取样。鞭者认为,这种观点是错误的。
大数据来源大致可以分为两类,一类来自于物理世界的科学数据,如实验数据、传感数据、观测数据等;另一类则来自于人类社会活动,主要是互联网数据,如社交关系、商品交易、行为轨迹等个人信息。然而,这两类数据的产生、收集都存在很大的盲区和局限性。归纳与演绎、由点及面是科学研究与应用的主要逻辑和方法,科学数据主要是精心设计的抽样数据。至于互联网数据,虽然我国网民数量已达7亿,但这意味着仍然有6亿人因不能或不愿上网而被排除在互联网大数据之外,让7亿人来代表另外的6亿人,你确认这6亿人乐意被代表吗?
很多人在网上订餐或消费的时候往往会参考其他人的推荐和点评,但经常在消费以后发现并不如意。撇开个人口味和刷评的因素,还有一个重要原因在于,网上点评的人并不具备足够的代表性。喜欢上网的本身就只是消费人群中的一部分,上网消费同时又喜欢点评的人更只是其中的一小部分,所以,他们并不能代表整个消费群体。
无论科学技术如何发达,来自于物理世界和网络社会的大数据永远都不可能覆盖整个自然界和人类社会;如果再考虑宗教、法律、伦理、道德上的诸多限制,那么大数据就更不可能成为“全样本”了。而且,被遗漏的那部分数据往往并不是随机偏差,而是系统偏差,在统计分析时不能不考虑。也正因为如此,社会学家对大数据的代表性总是保持着一份可贵的疑虑和审慎,在许多领域仍然坚持用传统的抽样方法而不是大数据来进行社会研究。
4、 完整性:广度与深度的缺失
大数据的完整性不足主要是指单个组织所能获取的数据体量虽然巨大,但所包含的实际信息却十分有限,以致难以以此为基础进行复杂的逻辑运算或全面描述。这种不完整主要包括信息维度(决定信息广度)的缺失和维度信息(决定信息深度)的缺失。
举例而言,电信运营商由于把控着数据管道,从而可以较全面地掌握用户的上网信息,比如上网时间、频率、上网终端、访问网站、浏览内容等等,有着较好的信息广度,但其掌握的信息深度却不够。运营商可以清楚地知道用户在什么时间、什么地点、以什么终端、什么网络访问了京东、亚马逊、天猫等电商,浏览了何种商品,停留了多长时间等等,但却不能掌握用户是否在某电商平台上购买了商品、购买了何种商品、参与了什么促销活动、以什么方式付款、支付了多少款额等等。很显然,京东对用户在自己商城的浏览、消费行为了如指掌(信息深度充分),但它却无法了解用户的其他互联网行为及在其他电商平台的消费行为(信息广度不足)。
在大多数情况下,对某种自然、社会现象的深入研究或者对用户的超级刻画(包括超维度和超粒纵横度两个切面),信息广度和信息深度缺一不可。大数据的价值恰恰在于广泛的交叉融合,从这个意义上讲,真正的大数据应是建立在共同的标准基础之上,融合了企业、政府、科学研究等跨领域、跨行业、跨平台数据的集合,是社会大数据(这是一个很有意思的提法,另案讨论)。
然而,当前的大数据依然以独立孤岛的形式存在,没有任何一个组织能够获取在广度和深度上都足够充分的数据。应该大力推进全社会的数据公开和共享,其中政府数据开放尤其重要。毫不夸张地讲,真正核心的数据绝大部分掌握在政府手中,没有政府参与,就没有真正的大数据。
|