课程
                    
                        /云计算&大数据
                        
                            /大数据
                        
                        /Presto实战与演练

Presto连接数据源的性能问题

老师你好，我想请问一些Presto连接数据源的问题。

我这里尝试了presto连接PG数据库，做了简单的聚合尝试，比在PG中直接查询是慢的。

想请教一下，

是否需要数据源为Hive 或类似列存储格式的等特殊类型的数据源格式，presto才具有高性能的特点
测试pg和presto两台机器各自独立，采用公网IP访问，是否需要部署同一台测试，感觉如果jdbc协议走tcp的话，应该相差不大
presto是否会缓存数据源的数据在内存中，第二次查询会更快？
测试数据为单表千万级数据，presto的单机是否存在性能瓶颈，8cores 28g ram，感觉影响不大

目前在摸索一些数据分析类的大数据工具，使用过Clickhouse，不知道老师是否了解

慕粉2040365749

2020-04-09

源自：Presto实战与演练 4-1

关注问题我要回答

1438

操作

收起

1 回答

叁金
2020-04-10

首先需要声明一点，presto本身是查询引擎，对于hive数据源的查询流程为读取metastore，然后读取hdfs上文件。对于其他jdbc的数据源的读取流程为生成执行计划，下推执行计划，jdbc数据源执行查询，在presto端再进行聚合。

所以依次回复你的问题：

1. presto所具备的高性能，快速是相对的，在数据量较大，进行分布式查询，进行多个数据源的聚合查询等等操作

2. 对于presto和pg的测试，我们可以简单这样理解，你通过presto对pg做简单查询=presto生成查询计划+pg查询自身，完全没有对比性

3. presto不会缓存数据

4. 单机presto发挥不出mpp架构的优势，只适合测试使用

5. clickhouse我的了解也不多，和presto一样是mpp架构，ck对于数据存储、索引、查询等等方面都进行了优化。而presto对于数据存储这块主要是依赖列式存储格式orc以及parquet。

希望能够对你有所帮助，有问题随时沟通~

0 回复有任何疑惑可以回复我~

收起回答

0/150

提交

取消

Presto实战与演练

参与学习 3896 人
解答问题 22 个

学习并操作Presto，实战数据查询及可视化系统。

进入课程

本课相似问答

2 回答我的presto连接hive，老是提示连接不了

1 回答presto动态删除catalog的时候怎么才能避免内存泄露问题？

1 回答presto是这样的么

1 回答presto查询报错

2 回答如何配置presto？

搜索更多本课相关问答

Presto连接数据源的性能问题

我要回答关注问题

热搜

最近搜索清空

Presto连接数据源的性能问题

1 回答

本课相似问答

Presto连接数据源的性能问题