Kafka在行动：7步实现从RDBMS到Hadoop的实时流传输,大数据,HADOOP,虚拟化,运维,云计算,大数据,安装,环境配置,HADOOP教程,,CIO之家

Kafka在行动：7步实现从RDBMS到Hadoop的实时流传输

网友　　36大数据　　综合　　编辑:勤勤　　图片来源:网络

Kafka是什么?它是一个分布式,可扩展的可靠消息系统,把采取发布-订阅模型的应用程序/数据流融为一体。这是Hadoop的技术堆栈中的关键部分,支持实时数据分析或物联网数据货币

对于寻找方法快速吸收数据到Hadoop数据池的企业, Kafka是一个伟大的选择。Kafka是什么? 它是一个分布式,可扩展的可靠消息系统,把采取发布-订阅模型的应用程序/数据流融为一体。这是Hadoop的技术堆栈中的关键部分,支持实时数据分析或物联网数据货币化。

本文目标读者是技术人员。继续读,我会图解Kafka如何从关系数据库管理系统(RDBMS)里流输数据到Hive, 这可以提供一个实时分析使用案例。为了参考方便,本文使用的组件版本是Hive 1.2.1,Flume 1.6和Kafka 0.9。

如果你想看一下Kafka是什么和其用途的概述, 看看我在Datafloq 上发布的一篇早期博客。

Kafka用武之地:整体解决方案架构

下图显示了在整体解决方案架构中,RDBMS的业务数据传递到目标 Hive 表格结合了 Kafka , Flume和Hive交易功能。

7步实时流传输到Hadoop

现在深入到解决方案的详细信息,我会告诉你如何简单几步实时流输数据到Hadoop。

1. 从关系数据库管理系统(RDBMS)提取数据

所有关系数据库都有一个记录最近交易的日志文件。我们的传输流解决方案的第一步是,在能够传到Hadoop的信息格式中获得这些交易。讲完提取机制得单独占用一篇博文–所以如果你想了解更多此过程的信息, 请联系我们。

2. 建立Kafka Producer

发布消息到Kafka主题的过程被称为“生产者”。“主题”是Kafka保存的分类消息。 RDBMS的交易将被转换为Kafka话题。对于该例,让我们想一想销售团队的数据库,其中的交易是作为Kafka主题发表的。建立Kafka生产者需要以下步骤:

36大数据

3. 设置 Hive

接下来,我们将在Hive中创建一张表,准备接收销售团队的数据库事务。在这个例子中,我们将创建一个客户表:

36大数据

为了让Hive能够处理交易, 配置中需要以下设置:

hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.dbtxnmanager

4.设置Flume Agent,从Kafka到Hive流传输

现在让我们来看看如何创建Flume代理,实现从Kafka主题中获取数据,发送到Hive表。

遵循步骤来设置环境,然后建立Flume代理:

36大数据

接着,如下创建一个log4j属性文件:

36大数据

然后为Flume代理使用下面的配置文件:

36大数据

5.开启Flume代理

使用如下命令开启Flume代理:

$ /usr/hdp/apache-flume-1.6.0/bin/flume-ng agent -n flumeagent1 -f ~/streamingdemo/flume/conf/flumetohive.conf

36大数据

6.开启Kafka Stream

如下示例,是一个模拟交易消息, 在实际系统中需要由源数据库生成。例如,以下可能来自重复SQL交易的Oracle数据流,这些交易已提交到数据库, 也可能来自GoledenGate。

36大数据

7.接收Hive数据

以上所有完成, 现在从Kafka发送数据, 你会看到,几秒之内,数据流就发送到Hive表了。

本文作者:网友来源:36大数据
CIO之家 www.ciozj.com 微信公众号:imciow

　　　　>>频道首页　　 >>网站首页　　纠错　　 >>投诉

延伸阅读

也许感兴趣的

.大数据安全体系介绍之技术体系篇

.大数据开发流程及规范

.大数据技术名词解释

.大数据常见问题之数据倾斜

.详解大数据批流处理中的两大架构

.什么是大数据战略以及如何构建

.大数据的数据治理与应用场景

我们推荐的

.最实用的机器学习算法优缺点分析

.阿里/网易/美团/58用户画像中的ID体系建设

.知识图谱的技术详解与应用

.用户画像技术及方法论

.菜鸟实时数仓技术架构演进

.如何从0到1设计搭建AI售前营销机器人？

.机器学习项目实操指南

.阿里的大数据建设方法论

主题最新

.ClickHouse开发与使用规范大全

.一文搞懂微服务架构演进

.一文详解微服务架构

.迄今为止最完整的DDD实践

.ClickHouse、Doris、 Impala等MPP架构详解

.全链路压测自动化实践

.多维度规划业务架构

.企业架构之业务架构

.基于CLICKHOUSE的数据仓库分层规范

看看其它的

.App数据分析到底要分析什么

.深度解析京东个性化推荐系统演进史

.常见的七种Hadoop和Spark项目案例

.如何基于 Spark Streaming 构建实时计算平台

.六大主流大数据采集平台架构分析

.横向对比三大分布式机器学习平台：Spark、PMLS、TensorFlow

.IT公司如何构建数据科学部门

.Tensorflow实践：CNN实现MNIST手写识别模型

服务中间件Dubbo的来历

Kafka 在行动：7步实现从RDBMS到Hadoop的实时流传输

作者其它的文章

.干了5年程序员，该如何转行

.如何做好用户留存

.一文带你掌握推荐系统

.微服务的数据库设计

.Kafka、RabbitMQ、RocketMQ等消息中间件介绍和对比

.产品经理可能用到的专业术语

收藏至微信

Kafka用武之地:整体解决方案架构

7步实时流传输到Hadoop

广告