公司业务准备上流数据处理了。由于之前基础平台选用了CDH,而CDH自带Spark,且由于数据源是每隔几分钟发一组数据文件的形式来传送数据,所以最终选取用Spark Steaming来做流数据处理。
下面记录初步使用Spark Steaming和Flume的一些过程。
第一个测试:Flume(spooldir to hdfs)
原始数据通过ftp每隔几分钟拉取一批数据到本地某文件夹。于是测试了下flume监控文件夹并将新加入的文件写入hdfs的功能。
配置文件如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1 a1.sources.r1.type = spooldir a1.sources.r1.spoolDir = /root/data/ a1.sinks.k1.type = hdfs a1.sinks.k1.hdfs.path = /user/flume/%Y-%m-%d/%H%M%S a1.sinks.k1.hdfs.fileType = DataStream a1.sinks.k1.hdfs.useLocalTimeStamp = true a1.channels.c1.type = file |
根据官方文档
若不设置
(更多…)