您的当前位置:官网首页 > 新闻动态 > 案例更新 >

Apache Flink 零基础入门(一):基础概念解析

时间:2019-08-27


2.Flink Architecture


在架构部分,主要分为以下四点:

第一, Flink 具备统一的框架处理有界和无界两种数据流的能力

第二, 部署灵活,Flink 底层支持多种资源调度器,包括 Yarn、Kubernetes 等。Flink 自身带的 Standalone 的调度器,在部署上也十分灵活。

第三, 极高的可伸缩性,可伸缩性对于分布式系统十分重要,阿里巴巴双 11 大屏采用 Flink 处理海量数据,使用过程中测得 Flink 峰值可达 17 亿 / 秒。

第四, 极致的流式处理性能。Flink 相对于 Storm 最大的特点是将状态语义完全抽象到框架中,支持本地状态读取,避免了大量网络 IO,可以极大提升状态存取的性能。


3.Flink Operation


后面会有专门课程讲解,此处简单分享 Flink 关于运维及业务监控的内容:


Flink 具备 7 X 24 小时高可用的 SOA,原因是在实现上 Flink 提供了一致性的 Checkpoint。Checkpoint 是 Flink 实现容错机制的核心,它周期性的记录计算过程中 Operator 的状态,并生成快照持久化存储。当 Flink 作业发生故障崩溃时,可以有选择的从 Checkpoint 中恢复,保证了计算的一致性。

Flink 本身提供监控、运维等功能或接口,并有内置的 WebUI,对运行的作业提供 DAG 图以及各种 Metric 等,协助用户管理作业状态。


4.Flink 的应用场景


Data Pipeline 的核心场景类似于数据搬运并在搬运的过程中进行部分数据清洗或者处理,而整个业务架构图的左边是 Periodic ETL,它提供了流式 ETL 或者实时 ETL,能够订阅消息队列的消息并进行处理,清洗完成后实时写入到下游的 Database 或 File system 中。场景举例:


实时数仓


当下游要构建实时数仓时,上游则可能需要实时的 Stream ETL。这个过程会进行实时清洗或扩展数据,清洗完成后写入到下游的实时数仓的整个链路中,可保证数据查询的时效性,形成实时数据采集、实时数据处理以及下游的实时 Query。


搜索引擎推荐


搜索引擎这块以淘宝为例,当卖家上线新商品时,后台会实时产生消息流,该消息流经过 Flink 系统时会进行数据的处理、扩展。然后将处理及扩展后的数据生成实时索引,写入到搜索引擎中。这样当淘宝卖家上线新商品时,能在秒级或者分钟级实现搜索引擎的搜索。




Copyright © 2018 凯发k8凯发k8-凯发k8真人 All Rights Reserved