为了账号安全,请及时绑定邮箱和手机立即绑定

大数据运行在内存中产生的中间数据一般有多大?

大数据运行在内存中产生的中间数据一般有多大?

潇湘沐 2018-06-25 14:38:17
在linux系统上,大数据运行在内存中产生的中间数据一般有多大?最大会达到1个T吗?一般最大值控制在什么范围合适?望各位有经验的大佬不吝赐教!
查看完整描述

2 回答

?
万千封印

TA贡献1891条经验 获得超3个赞

运行内存是可以设置的,以运行一个spark作业为例,提交作业时可以执行本次作业所需要的总共cpu核心数和总共的内存数,作业提交后spark 的 sparkContext 会向集群申请分配资源,集群会最大限度的提供资源,当然也存在申请90核心,集群只分配了70核心的情况。所以大数据运算的内存控制主要是看你的集群有多少资源,你愿意使用多少资源。

查看完整回答
反对 回复 2018-07-13
?
不负相思意

TA贡献1777条经验 获得超10个赞

一般没人会把数据一直存放在内存吧,比如说hbase在实时写入数据的时候,会先写到内存中,当内存中的数据达到一定大小(比如说配置为4G),会把数据刷写到HFile文件并保存到HDFS中。

查看完整回答
反对 回复 2018-07-13
  • 2 回答
  • 0 关注
  • 785 浏览

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号