摘要:近期 Cloudera Hadoop 大神 Arun 在 Twitter 上宣布 Cloudera Data Platform 正式集成了 Flink 作为其流计算产品,Apache Flink PMC Chair Stephan 也回应:“此举意义重大。”这意味着所有 CDH 发行版覆盖的全球企业用户都将能够使用 Flink 进行流数据处理。
p[;@9!t
本文对 Cloudera 官方宣布支持 Apache Flink 的博客进行了翻译,希望有助于大家更深入地了解 Flink 及 Cloudera DataFlow(CDF)。
A+z}z@K (Arun 与 Stephan 的 Twitter 互动) tJm1Q#|| kZR(0,
W
▼ 以下为 Cloudera 官方博客的原文翻译 ▼ "Id1H 我们再也无法抑制兴奋!在过去的几个月中,Cloudera 的动态数据工程团队一直在努力提供 Cloudera DataFlow(CDF)中引人注目的产品。Cloudera Streaming Analytics(CSA)的 GA 版提供了对 Apache Flink 的支持,从而增强了整个动态数据平台的流处理和分析能力。 "#h/sAIs Q<yvpT(
由 Apache Flink 支持的 Cloudera Streaming Analytics 是 Cloudera DataFlow(CDF)平台内的一项新产品,可提供 IoT 级数据流和复杂事件的实时状态处理。Cloudera DataFlow(如下图所示)是一个全面的边缘计算到云实时流数据平台。作为 CDF 的关键支柱之一,流处理和分析对于处理来自各种数据源的数百万个数据点和复杂事件非常重要。多年来,我们已经支持了多个流引擎,但是 Flink 的加入使 CDF 成为了一个极具吸引力的平台,可以大规模处理大量流数据。 @ *5+ZAF =dp`4N Cloudera Streaming Analytics 涵盖了 Apache Flink 的核心流功能: - 在 YARN 上支持 Flink 1.9.1
- 支持在 Cloudera 托管集群上安装 Flink
- 支持完全安全(启用 TLS 和 Kerberos)的 Flink 集群
- 从 Kafka 或 HDFS 读取数据源
- 使用 Java DataStream 和 ProcessFunction API 的 pipeline 定义
- 恰好一次的语义
- 基于事件时间的语义
- 数据接收器写入 Kafka,HDFS 和 HBase
- 与 Cloudera Schema Registry 集成以进行模式管理以及流事件的序列化/反序列化
这些功能可实现复杂的端到端流传输 pipeline。我们计划在即将发布的 CSA 中提供更多激动人心的功能。 `H9!Z$7G 平台集成,可任意扩展 Flink =%B}8$.| CSA 将在最近发布的 Cloudera 数据平台(CDP)中心提供服务。利用 CDP 的灵活性和管理选项,可以轻松地对 Flink 进行任意扩展。有了平台集成,Cloudera Manager 可以用于安装,监视和管理 Flink 集群。集中式日志搜索还可以聚合 Flink 应用程序日志,以便于管理和调试。 最重要的是,可以使用指标报告器将 Flink 应用程序指标发送到 Apache Kafka 中。CDF 平台上的指标可以通过 Streams Messaging Manager 将 Flink 的指标收集到 Kafka 中,并以可视化的形式对它们进行分析。 o?I`n*u"X
<X?xr f 为什么选择 Flink? Apache Flink 是一个分布式,可扩展的数据分析处理引擎,可以非常轻松地处理数百万级的数据或复杂事件,并提供实时预测功能;为数据流上的大规模计算提供通信,容错和数据分发;可以处理生成的实时数据以及存储在文件系统中的数据。 在过去的几年中,Apache Flink 在全球范围内被广泛应用: &