程序员的自我修养
Home » 文章归档 » 2015年六月

战5渣系列——Spark Streaming启动问题

1条评论7,915次浏览

测试集群上Flume监控本地文件夹+Spark Streaming跑的没问题,但放到生产环境上来测试却一直报错,启动命令如下:

报错信息如下:

(更多…)

分类:Apache Spark, 战5渣
标签:,

Flume+Spark Steaming初探

2条评论13,134次浏览

公司业务准备上流数据处理了。由于之前基础平台选用了CDH,而CDH自带Spark,且由于数据源是每隔几分钟发一组数据文件的形式来传送数据,所以最终选取用Spark Steaming来做流数据处理。

下面记录初步使用Spark Steaming和Flume的一些过程。

第一个测试:Flume(spooldir to hdfs)

原始数据通过ftp每隔几分钟拉取一批数据到本地某文件夹。于是测试了下flume监控文件夹并将新加入的文件写入hdfs的功能。

配置文件如下:

根据官方文档hdfs.fileType默认是SequenceFile,这里选用DataStream将不压缩输出文件。

若不设置hdfs.useLocalTimeStamptrue则会报下面的错误,暂时不知为何。
(更多…)

标签:,

Hive窗口和分析函数(上)

0条评论5,303次浏览

之前记录row_number()的使用方法,最近终于有空将窗口函数这一块完整的看一遍,在此记录。

Analytics functions

RANK()、DENSE_RANK()、ROW_NUMBER()

使用示例:

其中PARTITION by calling_nbr可选,若加上则是窗口内统计,否则则是全局统计。

部分结果如下:

(更多…)

分类:Apache Hive
标签:,

Hive常用操作记录

1条评论4,256次浏览

记录日常工作中Hive相关的常用语句。之前总是东一个文件西一个文件的丢这些语句,导致需要用的时候总是找不到,要去网上重新查。

创建外部表

添加分区

设置NULL值的替代字符

OR
(更多…)

分类:Apache Hive
标签:
11
profile
  • 文章总数:81篇
  • 评论总数:438条
  • 分类总数:32个
  • 标签总数:45个
  • 运行时间:1586天

大家好,欢迎来到selfup.cn。

这不是一个只谈技术的博客,这里记录我成长的点点滴滴,coding、riding and everthing!

最新评论