产品分类

新闻资讯

联系我们

最新技术

当前位置:主页 > 最新技术 >

舍恩伯格:大数据时代,谁是胜利者?

2018-10-02 08:20

  【IT专家网】2013年7月11日-12日,IBM 2013 IBM技术峰会(IBM Tech Summit 2013)在北京国家会议中心举行,牛津大学教授、大数据权威专家、《大数据时代》作者维克托·迈尔·舍恩伯格博士来到了大会现场,并做了主题演讲《信息风暴时代的黎明:成功与失败》。

2.jpg

  牛津大学教授、大数据权威专家、《大数据时代》作者维克托·迈尔·舍恩伯格博士

  各个研究机构关于数据量的增长的研究报告在此不赘述,舍恩伯格分享了自己关于大数据的观点。他认为,大数据有三个主要的特点,全体的、混杂和相关的关系,这三种性质是大数据的特点,也是相互加强的。

  他指出,如果我们研究的现象只有6000个数据点,抓住6000个数据点就是大数据,因为它抓住了所有数据。通过这种方式我们可以看到随机抽样给不了的细节,它带给我们一种前所未有的洞察力。

  对于接受混杂,他表示,在小数据时代我们总试图收集一些非常干净的数据、高质量的数据,我们花很多钱、很多精力来确定这些数据是好数据,是高质量的数据。当大数据来临,我们就不去追求那种特别的精确性,我们可能会满足于某种大的方向,而不是知道现象的每一个英寸。在宏观上失去了精确性,我们却可以在微观上获得准确性。

  因为更多和更加混杂,它们相互的加强给我们带来了第三个巨大的转变,可能也是最重要的转变,从因果关系转向相关关系。

  那么,在这个大数据时代里,谁是胜利者,谁是失败者呢?舍恩伯格说,首先我们需要知道两点,第一,技术并不意味着成功,或者规模并不意味着成功。以往说你越大越说明你成功,因为你有规模经济,规模经济会给你带来很大的效益。20年前如果你有上十万的服务器,像亚马逊、谷歌需要这么多服务器才能做搜索的服务,现在在大数据时代有两个方面的变革,之前这些大规模公司还会继续享有它们的优势,但是这些新公司如果由于云的服务,由于IBM云架构,也可以迅速赶上上十亿的数据点,可以集体在Decide.com这个公司里进行分析,上十亿的客户可以在Decide.com这个公司里进行分析,这个公司其实只有30个员工,没有实体的服务器。

  他指出,在大数据的企业家里,我们之前的大公司,还有现在的小公司,更多小的具有创意的公司,他们也有可能成功,特别是一些中型的公司,他们有两种选择,要么变得规模越大,另外就是可以变成一个小的公司,但是变得更加具有创新精神,而且是敏捷的架构。

  他认为,为了在大数据时代当胜利者,我们需要有一个非常有力的工具让我们使用,需要更好的数据分析架构,这些分析软件可以帮我们获得很多洞察力和分析的智能。另外,我们还需要大数据的思维,在未来比如说医疗专家、广告专家,他告诉你他知道答案,实际上他们是不知道答案的,这种时代马上就会过去。

  舍恩伯格还谈到了大数据的地缘政治,他这样评价美国总统奥巴马为就业问题给苹果公司施压,要把很多制造基地转回美国,“我认为这在政治上是正确的,但并不是一个很明确的做法。因为在大数据时代真正的利益来自于数据而不是制造。”

  他表示,大多数国家只是刚刚进入大数据时代,如果一个国家能够在大数据时代生存和繁荣下来,它一定会成功。而那些只是在制造业成功的国家不会真正的成功。很多国家真的有一个机会可以实现跳跃性的发展,而且可以实现竞争的优势,基于大数据给他带来持续的发展优势。

  以下是舍恩伯格的演讲实录:

  早晨好,我今天感到非常激动能够跟大家谈大数据。首先我来给大家讲一个故事,这个故事是关于这位先生,他叫Oren Etzioni,他是一位美国AAA大学的计算机教授,他是一位著名的大数据的科学家,也是一位企业家,他发起了好几家大数据企业,最近他有一网站Decide.com,监测400万种消费品的价格,像计算机、洗衣机、相机,他使用超过250亿种的数据,所以可以分析出如果一个客户想购买一个相机,你可以在该网站上找到现在是不是最适宜的购买时机,还是等一周或者两周,因为到时价格可能会下降。这家公司预测非常准确,77%的时候都是准确的,一般一个产品能节约100美元,Oren Etzioni先生对自己的预测非常有自信,如果你购买东西,由于他预测不准确,多花了钱,他会返给你,所以Decide.com对于价格为什么变化并不关注,但是他们这种相关性的大数据分析使得他们可以预测在价格当中发生了什么事情,他们知道什么,但是不知道为什么,这样可以给大量的客户节约大量的钱。我们如果看核心技术的话,就是大数据技术。如果我们看大数据的话,会看到有数以十亿计的数据点,在几年之前已经开始出现,我们可以想一下人类的基因、人类的DNA,今年我们庆祝人类基因测序第一次成功的十周年,因为第一次是在2003年,从1993-2003年花了十年的时间,而且是全球的一个努力,花了10亿美元才将一个基因组进行了测试,而今天我们只花两到三天的时间,一个实验室2000美元就能做到同样的事情。我们这里需要停下来沉思一下,这意味着什么?这就意味着我们现在测序的不仅仅是一个人类的基因组,而是几乎所有人的基因组,如果我们希望这么做的话。但是这个数据会产生多少呢?我们现在看到数据的雪崩,而且它在过去25年当中在急剧增加。我们看一下1987年,当时我们估测在全世界大概26亿个数据点,大多数都是模拟数据,(图)它是粉色的,数字数据是紫色的,到2007年已经增长了100倍,而且还在继续增加,而且更加重要的是模拟数据的数量在2000年的时候达到了巅峰,然后又开始下降。而数字数据在2000年的时候,世界上3/4的信息还是模拟数据的形式,而今天它已经不到2%了。所以可以理解我们看到这样数据的时候我们可能会思考大数据就是现在数据点的数量之多,而且我也非常相信并不只这一点,我认为大数据有三个主要的特点,全体的、混杂和相关的关系,这三种性质是大数据的特点,也是相互加强的。

  下面我们来介绍一下这三点:首先,全体,也就是更多,去收集和分析更多的数据。这个数据都是关于我们希望研究的问题的数据,它并不是这个数据点绝对的数字重要,而是有多少数据点是和我们要研究的现象相关的,如果我们研究的现象只有6000个数据点,抓住6000个数据点就是大数据,因为它抓住了所有数据。通过这种方式我们可以看到这些细节,这些细节在之前随机抽样给不了我们的,而且大数据带来的速度可以引用IBM Jase的话,它带给我们一种洞察力,这种洞察力我们从来没有过。

  第二,混杂,接受混杂。在小数据时代我们总试图收集一些非常干净的数据、高质量的数据,我们花很多钱、很多精力来确定这些数据是好数据,是高质量的数据,可是你要是看大数据的话,我们就不去追求那种特别的精确性,我们可能会满足于某种大的方向,而不是知道现象的每一个英寸。当我们在宏观上失去了精确性,我们却可以在微观上获得准确性。因为更多和更加混杂,它们相互的加强给我们带来了第三个巨大的转变,可能也是最重要的转变,从因果关系转向相关关系,我们不再从事实中寻求原因,我们不再问为什么,不再寻求一个松散的因果关系,因为在很多情况下我们可以直接问是什么。你思考一下这个问题,当我长大的时候我的母亲告诉我,你得在冬天的时候戴手套、戴帽子,要不然你会感冒,这就是一个因果关系,但其实不是,你感冒了并不是因为不戴手套,因为手套和感冒之间没有因果关系,而是病毒导致的。同样,当我在一个新餐馆吃饭的时候,第二天我生病了,我马上认为是我吃的东西导致的,尽管从统计上来说更有可能的,可能是我和一个同事握了手,他有腹泻导致的,所以这完全是一种虚幻的因果关系。我们在追求的这种关系使得我们感到很舒服,我们认为我们找到了原因,但很多情况下这种原因却是一个虚假的原因,所以我建议的是我们现在需要更加谦卑,但是我们仍然可以获得更多的洞察力,我们不要认为可以真正地、容易地找到因果关系,而是发现相关的关系,这会让大家了解什么叫相关关系。

123下一页

本文源自: 环亚娱乐

Copyright © 2005-2017 http://www.rheroesinc.com 环亚娱乐_环亚娱乐AG旗舰厅_环亚娱乐AG最佳线路_腾讯娱乐版权所有

扫一扫,加关注