大数据初探

Tags: other

最近一年多,大数据被热炒起来,大公司都在研究发掘自己庞大数据的价值。两周前看了传说中的「迄今为止全世界最好的一本大数据专著」:《大数据时代:生活、工作与思维的大变革》,译者赞扬原作者最具洞见之处在于:

  • 明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
  • 认为大数据的核心就是预测。这个核心代表着我们分析信息时的三个转变。第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。

这本书看下来,总结一下就是在论证上边作者提出的观点。书中列举了大量的实际案例,的确显示了大数据的威力,但觉得作者的观点仍不能证明是真的正确、也许这个本没有严格的对错之分。译者对这本书有些过于夸大溢美了,正象译者所说这么吆喝也是为了能大卖,但自己觉得这只是一本比较概括的、没什么深度的薄书而已。

特别说下这个观点:「只要知道“是什么”,而不需要知道“为什么”」,在传统工作及技术里,我们一定会问一个现象或结论的原因,如果不搞清楚“为什么”,可能就显得「态度不端正」。这里作者说不需要知道为什么,也许是因为数据太大、影响因素太多而实在查不清楚原因,所以就不去追究了吧?就像很多机器学习算法均是黑盒,顶多告诉一些权重与模型,它们很难表述清楚一个具体策略的原因。

书中多次提到一个电影《点球成金》,讲它是如何运用球员的数据并进行分析,以最低的成本和配置,让一支“老弱病残队”尽力获得冠军。因为数据的力量,这支队伍赢得了许多场胜利,然而他们并没有取得季后赛的胜利、并没有夺取世界冠军。为什么?

是因为:数据运作哲学并不是完美无瑕,统计数字并不能完全取代棒球场上瞬时的千变万化,球员在某方面的特质在被挖角后将消失殆尽,与一支基础功扎实、技术全面的冠军之队相比,他们对球员所作出的评估将在瞬息变化的大赛对抗中显露弊端,终究不能取得全面的胜利。

另外要承认:人总是有预测不了的“黑天鹅”,作者提到了不少领域的案例,只是说明了预测的局限性。有些东西不是存在风险,而是不确定的,风险是概率问题,但不确定性的事件一旦发生就是百分百。

数据之外,回到电影对人「成功与失败」的探讨上,这里引用别人精彩评论:胖子球员在尝试上二垒的时候狼狈不堪,他以为自己失败了,但其实他已经打出的全垒打,他是成功的。就像主角一样,他从未赢过最后一场比赛,他以为自己是个彻头彻尾的失败者,但事实上他已经成功了——他开创了棒球运动的新时代。所以说人生成败本难判定,苦苦追逐的所谓成功却往往并不是真正想要的,而enjoy the show才是影片倡导的人生追求。

总的来说,大数据时代来了,大数据带给我们不一样的非凡体验。

最近文章

2024-02-15 » 字节监控之旅
2024-01-06 » 如何做一个好的管理者
2023-12-23 » E2E测试实践