首页手记一百页的《Flink基础教程》能教会我们什么？

一百页的《Flink基础教程》能教会我们什么？

标签：

云计算 Flink

前言

What is Apache Flink?

Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perform computations at in-memory speed and at any scale.

----Apache 官网 Flink概念
从Apache对Flink的定位，我们可以看出Flink是一个分布式处理引擎，可以对无界数据（有开始无结束）或有界数据（有开始有结束）进行有状态计算。
本文主要介绍了Flink的基础概念，旨在讲解使用Flink编程流处理项目之前需要掌握的几个Flink知识点，但并不进行深入讨论。

一、Why流处理？

为什么有了批处理还需要流处理？挖掘流数据中的自然规律可以更加真实快速地反映我们的生活，比如可穿戴设备的测量结果、实时路况转发，实时流量异常检测。

Flink流处理优势：
实现低延迟、高吞吐，容错性，基于事件时间处理数据

二、什么是流处理架构？

2.1 传统架构

维护了一个中心化的数据库系统，用于存储系统的事务性数据。

缺点在于：

数据架构过于单一，数据库是唯一正确的数据源，随着业务的复杂化，传统的数据架构可能会变得更加缓慢
异常问题处理方法复杂，异常出现时难以保证系统的正确运行
在大型分布式系统中，难以正确保证数据全局状态的一致性

而流处理不需要一个数据库来集中存储全局状态数据，流数据是共享且永不停止的数据，且是唯一正确的数据源。在流处理架构中，各个应用程序可以自己独立处理流数据，这些数据可以采用本地数据库或分布式文件来存储。

2.2 流处理架构的历史

storm->Lambda架构->spark streaming->Flink

storm，流处理先锋，低延迟的流处理，无法实现高吞吐，通过ack保证准确性，支持exactly-once语义；

Lambda架构，结合storm和批量MapReduce来保证低延迟与正确性：通过批量MapReduce作业提供虽有些延迟但结果准确的计算，同时通过storm将最新数据的计算结果初步展示出来；这种架构的缺点也很明显，对同样的业务逻辑即需要维护批处理的api，也需要维护流处理的api；

spark streaming，将连续事件中的流数据分割成一系列微小的批量作业，这种方式也称为微批处理，这种方式可支持exactly-once语义，实现了高吞吐，但延迟性差；

Flink，包含了以上流处理架构的所有好处，同时也解决了以上所有的弊端。Flink将批处理看成是一种特殊的流处理，以此来同时实现批处理与流处理。

2.3 流处理架构的构成

1、消息传输层：从各个数据生产者中采集连续事件的数据，并传输给订阅了这些数据的消费者，常见的消息传输层技术有Kafka和MapR Streams

这一层中维护了一个事件数据的安全队列，产生的消息可以被保留起来，也可以重播给流处理层。在复杂系统中，消息传输层往往对应了多个生产者与多个消费者，生产者负责生产数据，消费者负责消费数据，两者相互解耦，即生产者生产消息后，不是由生产者向所有的消费者广播，而是消费者从消息队列中订阅消息，消息到达后，消费者并不一定需要在运行状态，即消息达到后并不一定立刻被处理，具体处理时间可由消费者根据自身业务逻辑指定。

2、流处理层：聚合并处理事件；持续地将数据在应用程序与各系统间移动；应用程序的数据状态本地化