为了账号安全,请及时绑定邮箱和手机立即绑定
慕课专栏

目录

索引目录

智能时代:写给想学习大数据的你

限时优惠 ¥ 46.00

原价 ¥ 58.00

02月14日后恢复原价

限时优惠
立即订阅
02 大数据到底是个啥
更新时间:2020-01-14 17:36:31
只有在那崎岖的小路上不畏艰险奋勇攀登的人,才有希望达到光辉的顶点。

——马克思

在计算机和互联网技术高度发达的今天,我们所有人每天都会在互联网上产生大量的数据,例如出去旅游,用苹果手机拍照,照片备份到苹果 iCloud 里面会留下图片数据,在京东购买商品时会产生商品交易数据,使用微信进行即时通信会产生通信数据,使用网约车软件打车会产生出行数据 ……

如此可见每天互联网上产生的数据是有多庞大,数据可谓是无处不在。根据 IBM 调研的说法,人类每天生成的数据涵盖我们发送的文本、上传的照片、各类传感器数据等所有信息,相当于从地球到月球的距离。因特尔公司首席执行官 Brian Krzanich 也曾表示,到 2020 年互联网用户每天将产生 1.5GB 的数据。

那么大数据是不是就是指的数据量巨大呢?大数据到底是个啥?

1.

百度百科里是这么定义大数据的:

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2.

维克托・迈尔 - 舍恩伯格及肯尼斯・库克耶编写的《大数据时代》 [2] 中表示,大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。

1980 年,美国著名未来学家阿尔文・托夫勒在《第三次浪潮》一书中将大数据认为是 “第三次浪潮的华彩乐章”,这是第一次提及 “大数据”。
图片描述图片来自于网络,版权归原作者所有

在 2001 年,高德纳分析员道格・莱尼在一份与其 2001 年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇:量(Volume),即数据多少;速(Velocity),即资料输入、输出的速度;类(Variety),即多样性。

在莱尼的理论基础上,IBM 提出大数据的 4V 特征,得到了业界的广泛认可。大数据 4V 特征:volume(容量)、variety(种类)、velocity(速度)、value(价值)

第一,大数据意味着超规模(Volume)。 大数据的规模从一般意义上讲具有大规模、海量的含义,但是没有绝对的量纲标准,而是和领域及其问题相关。

超规模是指超出了原有领域和问题的大规模。比如企业大数据,与之前不同的一个地方在于,此时的数据规模常常超越了企业本身传统的内部数据边界,而是延伸到了企业外部,成为一种社会化的企业数据。每个人作为终端使用者,既是数据的使用者,又是数据的创造者。

第二,大数据意味着多样性(Variety)。 富媒体(Rich Media)大大扩展了人们的数字化生活体验,全球数据和数字流量中 80% 以上 都是文本、视频、语音、图像,而不是过去以二维的、规范化的、非常简单数据形式为主的结构化数据。多样性成为大数据的显著特征。

第三,我们处在数据的海洋之中,但与我们企业或个人相关的数据相对说来是很少的,所以是低价值密度的(Value)。 即,数据量的分母太大,对企业或个人决策有价值的信息占总量的比例就很小。

所以这里有一个重要的含义,即如何从低价值密度的数据海洋中挖掘出有用信息,成为企业数据分析的关键。

第四,大数据的实时性强(Velocity)。 信息就像开着的水龙头一样,源源不断地出来。人们打开手机看新闻,支付账单,都需要得到及时响应,而不是等到晚上再看新闻,要排个队才能支付账单。

数据是连续的,实时的,流涌的。这种流数据是时时刻刻(Real-Time)的,构成了大数据之 “大” 和无时不在。

3.

莎士比亚说过:一千个人心中,有一千个哈姆雷特。每个对大数据理解的角度不尽相同。作为一名互联大数据技术人员,我对大数据的理解是这样的。

3.1 大数据必须的是体量巨大的数据,而不是单个的我们生活中感知的 “大文件”。偶尔会听到有人会将某一部高清的 4K 电影,称之为大数据。要知道对应我们普通的电脑来说一部几十 G 数据量已经很大了,但是对于整个社会每天产生的 PB、EB、ZB 来说,真的是冰山一角。

那么什么样体量的数据,能称之为大数据呢,以我所在的互联网生活服务超级平台举例,用户每天在 App 上浏览、点击、购买、平台行为产生的数据量在几十 PB 级别。

关于大数据规模门槛我给出一个简单的判断标准:每天产生数据低于 TB 级别的数据都不能称之为大数据。

3.2 大数据指的是有价值的数据。一些不正规的互联网媒体为了骗取互联网广告主的广告推广费用,会自己购买服务器,部署刷量程序。这些机器上的程序日夜不停地点击媒体上广告主投放的广告,在点击过程中会产生大量的曝光数据。数据量也能达到惊人的 PB 级别,但是这些数据背后对应的是一个个没有生命的 “程序”。

这些 “程序” 除了点击广告之外,也不会产生有价值的行为。所以这些数据是没有价值的,也就不能称之为大数据。

关于大数据价值判断标准:大数据背后需要对应一个个鲜活的个体,这些个体必须是能产生其他社会价值的。个体的标准不仅限于人,但多数情况下等于人。

3.3 大数据具有严格的时效性。 尽管比较久远的也能反映数据背后个体的历史行为。但数据和个体对应关系会时刻发生变化。历史行为到当前是否能来准确描述个体的行为我们是无从判断的。

例如:一名大学生在上学的时候主要经济来源是父母,他的经济购买能力是比较有限的。几年之后参加工作,自己有了稳定的收入以后,购买能力就会大大增强,此时再根据他历史数据,去给他推送商品时候,这个人成功购买的概率就会很低。

所以说大数据随时间的推移,时效性下降之后,数据价值极具下降。关于大数据时效性判断标准:大数据从数据产生开始,数据价值在几个月的时间里会持续下跌,直到没有任何价值。

这一节我们重点讨论了大数据的定义,通过引用了百度百科、托夫勒、莱尼等多方观点阐述,并结合我个人的理解总结了大数据的特点。同学们,你们的对大数据的理解是怎样的呢,欢迎大家在评论区给我留言。

}
限时优惠 ¥ 46.00 ¥ 58.00

你正在阅读课程试读内容,订阅后解锁课程全部内容

千学不如一看,千看不如一练

手机
阅读

扫一扫 手机阅读

智能时代:写给想学习大数据的你
限时优惠 ¥ 46.00 ¥ 58.00

举报

0/150
提交
取消