手记
分享经验交流心得,学习前沿流行技术
-
一文看懂Hive的数据压缩和数据存储格式!
在工作中大家可能会遇到下面这两个问题? 想要进一步提高Hive的计算效率,从数据压缩格式层面应该如何优化? Hive数仓中维护的数据量太大,如何提高存储空间的利用率? 针对这两个问题的解决方案,其实对应的就是在Hive中如何选择合适的数据压缩格式和数据存储格式。 Hive的数据存储格式,默认使用的都是TextFile格式的数据,这种格式的数据在存储层面占用的空间比较大,影响存储能力,也影响计算效率。 所以为了提高Hive中数据的存储能力(存储空间的利用率),以及计算性能,需要详细了解
429浏览
1推荐
0评论
-
来感受一把Flink批流一体化代码把!
Flink提出了批流一体化的概念,并且在1.12版本中开始正式引入批流一体化API,这个特性为批流一体化数仓的产生奠定了基础。 废话不多说,下面我们就来感受一把批流一体化代码把! 本文中的代码基于目前最新的Flink 1.15版本进行开发。 1:引入Flink相关的maven依赖。 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-scala_2.12</artifactId> <version>1.15.0</version> <!-- <scope>provided</scope> --> </dependency> <dependency> <groupId>org
255浏览
1推荐
0评论
-
一文看懂大数据生态圈完整知识体系【徐葳】
随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。 目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。 <center>图1 一、数据采集技术框架 数据采集也被称为数据同步。随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些有
457浏览
1推荐
0评论