首页手记 DataFrame和Parquet

DataFrame和Parquet

标签：

大数据

Apache Parquet作为文件格式最近获得了显著关注，假设你有一个100列的表，大部分时间你只需要访问3-10列，行存储，不管你需要不需要它们，你必须扫描所有。Apache Parquet是列存储，如果需要3列，那么只有这3列被load。并且datatype、compression和quality非常好。下面我们来介绍如何把一个表存储为Parquet和如何加载。首先建立一个表格：

first_name	last_name	gender
Barack	Obama	M
Bill	Clinton	M
Hillary	Clinton	F

Spark SQL:

val hc = new org.apache.spark.sql.hive.HiveContext(sc)import hc.implicits._case class Person(firstName: String, lastName: String, gender: String)val personRDD = sc.textFile("person").map(_.split("\t")).map(p => Person(p(0),p(1),p(2)))val person = personRDD.toDFperson.registerTempTable("person")val males = hc.sql("select * from person where gender='M'")
males.collect.foreach(println)

保存DF为Parquet格式:

person.write.parquet("person.parquet")

Hive中建立Parquet格式的表:

create table person_parquet like person stored as parquet;
insert overwrite table person_parquet select * from person;

加载Parquet文件不再需要case class。

val personDF = hc.read.parquet("person.parquet")personDF.registerAsTempTable("pp")val males = hc.sql("select * from pp where gender='M'")
males.collect.foreach(println)

Sometimes Parquet files pulled from other sources like Impala save String as binary. To fix that issue, add the following line right after creating SqlContext:

sqlContext.setConf("spark.sql.parquet.binaryAsString","true")

作者：jacksu在简书
链接：https://www.jianshu.com/p/9144dcdc2277

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

三国纷争

JAVA开发工程师

手记
篇

粉丝

51

获赞与收藏

182

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32839 371

网络编程入门教程

20个小节 13636 256

Pandas 入门教程

25个小节 20275 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

DataFrame和Parquet

阅读免费教程