首页手记 2018-11-13-Flink(1)—&...

2018-11-13-Flink(1)——基于flink sql的流计算平台设计

标签：

Flink

本文转自个人微信公众号，原文链接。

使用场景

先说流计算平台应用场景。在我们的业务中，实时平台核心包括几个部分：一是大促看板，比如刚过去的双11，供领导层和运营查看决策使用；二是实时风控的技术支持；三是实时数据接入、清洗、入库功能，为下游提供实时、准确的数据。

为了支持这些业务需求，并最小化技术人员的介入，设计并实现了实时计算平台。

设计

首先，是数据源部分。数据接入包括埋点日志、数据库数据、API上报数据等，埋点数据、API上报的数据等都接入Kafka，平台支持的数据源包括Kafka、MySQL、Redis、Elasticsearch，根据使用经验，Kafka和MySQL 已经基本覆盖我们的业务需求。我们将数据源统一在平台进行管理，使用者不需要关注数据源的具体来源信息。

其次，是Job。Job由数据源和具体的task组成。数据接入后，需要进行运算，要定义算子和工作流。算子就是我们要对数据流进行的操作，同时，对数据可能需要经过中间很多层处理，所以，还需要定义工作流。算子我们采用Flink SQL，且目前仅支持Flink SQL。Flink 使用 Apache calcite 解析SQL，它支持 ANSI SQL，这对于BI和分析师，都是比较容易使用的。在当前情况下，Flink SQL 对有些语法还不支持，对我们来说，这不算大问题，一是先有语法已经覆盖我们的绝大多数需求，如果我们要等它完美支持后再来使用，反而是得不偿失，正所谓Done is better than perfect.；其次是对于刚需语法，我们可以根据Flink 提供的UDF 自行开发，比如函数 LAST_VALUE()。

部署

Flink 集群支持Standalone、Yarn、Mesos、K8S等多种模式，我们目前的版本采用Standalone cluster模式，现在流行的在生产环境使用较多的是Yarn模式，下表是Standalone 模式和 Yarn 模式的优缺点对比。我们之前采用Standalone 模式的两个原因，一是为了快速实现；二是尽量减少外部依赖特别是对 Yarn 集群的依赖（Yarn 集群主要是离线计算和BI、分析师日常取数使用，尽量减少对他们的影响。如果要采用Yarn 集群模式，我也推荐单独搭建Yarn 集群）。但我还是更推荐Yarn 模式，Job 级别的资源隔离以及失败自动重启会更加重要点。

资源

不同的任务数据量不同，计算量不同，需要的资源也不同，我们支持对不同的Job 配置不同的 parallelism，从而满足不同的资源需求，该值还只是一个经验值，暂时无法做到自适应配置。

使用

Flink 将 savepoint 保存到HDFS，在使用过程中，我们发现HDFS上的savepoint 数量巨大，但一段时间前的savepoint是没有用处的，所以，我们对savepoint 进行了生命周期管理，自动删除过期的savepoint。

另外，在业务方使用过程中，也要做Job的生命周期管理，比如大促看板，否则，实时计算平台的资源就是一个黑洞。

其它

系统还涉及用户管理、权限管理、监控告警等部分，暂不做详细介绍。

作者：此星爷非彼星爷
链接：https://www.jianshu.com/p/2d0a2d954e4b

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕姐8265434

手记
篇

粉丝

224

获赞与收藏

1070

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 33084 374

网络编程入门教程

20个小节 13769 259

Pandas 入门教程

25个小节 20468 393

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

2018-11-13-Flink(1)——基于flink sql的流计算平台设计

阅读免费教程