首页手记 Flink：Data Pipeline应用

Flink：Data Pipeline应用

标签：

Flink

Apache Flink由于其广泛的特性，是开发和运行许多不同类型应用的优秀选择。Flink的特性包括对流和批处理的支持、复杂的状态管理、event-time处理语义、以及exactly-once保证。此外，Flink可以部署在各种资源管理平台上，例如Yarn、Mesos和Kubernetes，也可以作为一个standalone的集群。Flink具有高可用性，没有单点故障的情况。Flink已经被证明可以扩展到数千个核和TB级的应用，并提供高吞吐量和低延迟。
下面，我们将探讨Flink支持的最常见的应用类型：
（1）Data Pipeline Applications
（2）Data Analytics Applications
（3）Event-driven Applications

一.Data Pipeline Applications

1.什么是data pipelines？

ETL（抽取-转换-加载）是在存储系统间转换和移动数据的一种常用方法。通常，ETL任务会定期的触发，将业务数据系统中的数据拷贝到分析数据库或数据仓库中。
data pipeline的作用和ETL任务类似。它们转换数据，将数据从一个存储系统移动到另一个存储系统。然而，data pipeline操作不是定期的触发，而是作为一个连续不断的流处理方式处理数据。因此，它们能从不断产生数据的源中读取记录，并以较低延迟将其移动到目的地。例如，一个data pipeline监控一个文件目录，一旦有新的文件产生，就将其数据写入到event log中。再比如，一个应用可以将时间流存储到数据库，或者增量的构建和细化搜索索引。
下图描述了周期性ETL作业和连续data pipeline之间的区别。

image.png

2.data pipeline的优势是什么？

连续的data pipelines相比周期性的ETL作业，其最大的优点使具有更低的延迟。此外，data pipeline更加通用，可以用于更多场景，因为它们能连续地使用和发出数据。

3.Flink如何支持data pipeline？

Flink的SQL接口及其用户自定义函数可以解决许多常见的数据转换任务。更高级的需求可以使用更通用的DataStream API实现。Flink提供了到各种存储系统（如Kafka、Kinesis、Elasticsearch和JDBC数据库系统）的丰富的连接器。

4.典型的data pipeline应用有哪些？

（1）电子商务中的实时搜索索引构建
（2）电子商务中的连续ETL

作者：阿猫阿狗Hakuna
链接：https://www.jianshu.com/p/ff79986b72cc

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕虎7371278

手记
篇

粉丝

202

获赞与收藏

878

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 33027 372

网络编程入门教程

20个小节 13706 256

Pandas 入门教程

25个小节 20347 390

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空