首页猿问请教一下MPP 与...

请教一下MPP 与 Hadoop是什么关系？

Java 设计工具

犯罪嫌疑人X 2019-09-10 14:10:55

MPP 与 Hadoop是什么关系

查看完整描述

4 回答

RISEBY

TA贡献1856条经验获得超5个赞

二者处理数据的思路是一样的, 分布式并行处理, 某种程度上也都能完成同样的工作.
但mpp仍是关系型数据库技术, 能较好支持SQL, 使用更方便 (举例：GreenPlum)
hadoop是开源平台, 本身不是数据库, 但可处理非结构化数据, 这点关系数据库很难做到.

反对回复 2019-09-14

动漫人物

TA贡献1815条经验获得超10个赞

hive跟mpp的内存管理方式不大一样，mpp内存管理比较精细，他主要的想法是在每个机器上放个数据库，传统数据库的内存管理比较复杂，主要是内外存交互的东西，这样的架构决定了mpp在小数据量的时候，latency可以做的比较小，但是在大数据量的时候，throughput做不上去。
而hive的内存管理非常粗放，他后来就是mapreduce的job，mr的job是没有太多精细的内存管理的，他就是拼了命地scan，完了顶多就是个spill，这样的架构导致throughput很大，但是latency很高，当你集群规模很大的时候，你一般会追求很大的throughput，当数据量很大的时候，如果你用mpp那种传统的内存管理的话，大批量的计算反而会慢，而且更加占资源，所以vertica这种一开始就考虑了列式存储就是这个道理。

反对回复 2019-09-14

陪伴而非守候

TA贡献1757条经验获得超8个赞

　hive跟mpp的存储模型不一样，hive用的hdfs，而mpp需要自己做切分，自己做切分就带来动态调整的问题。
　　hdfs的扩展是通过元数据来做的，他有中心节点用来存元数据，在加入新的节点的时候，只需要修改元数据就可以了，所以hdfs的扩展能力是受到管理元数据那台机器的性能限制的，一般来说可以到10k这个规模，再向上就不行了。
　　实测对比GreenPlum和Hive，GP比Hive性能高出至少一个数量级，但是大部分场景下，依然是秒级甚至分钟级的延迟，距离具体通常意义的实时毫秒级，差距巨大。

反对回复 2019-09-14

4 回答
0 关注
2191 浏览

关注

添加回答

0/150

提交

取消

热搜

最近搜索清空

请教一下MPP 与 Hadoop是什么关系？

请教一下MPP 与 Hadoop是什么关系？

4 回答

添加回答