程序员的自我修养
Home » 文章归档 » 2015年六月

战5渣系列——Spark Streaming启动问题

0条评论5,313次浏览

测试集群上Flume监控本地文件夹+Spark Streaming跑的没问题,但放到生产环境上来测试却一直报错,启动命令如下:

报错信息如下:

(更多…)

分类:Apache Spark, 战5渣
标签:,

Flume+Spark Steaming初探

2条评论10,675次浏览

公司业务准备上流数据处理了。由于之前基础平台选用了CDH,而CDH自带Spark,且由于数据源是每隔几分钟发一组数据文件的形式来传送数据,所以最终选取用Spark Steaming来做流数据处理。

下面记录初步使用Spark Steaming和Flume的一些过程。

第一个测试:Flume(spooldir to hdfs)

原始数据通过ftp每隔几分钟拉取一批数据到本地某文件夹。于是测试了下flume监控文件夹并将新加入的文件写入hdfs的功能。

配置文件如下:

根据官方文档hdfs.fileType默认是SequenceFile,这里选用DataStream将不压缩输出文件。

若不设置hdfs.useLocalTimeStamptrue则会报下面的错误,暂时不知为何。
(更多…)

标签:,

Hive窗口和分析函数(上)

0条评论4,506次浏览

之前记录row_number()的使用方法,最近终于有空将窗口函数这一块完整的看一遍,在此记录。

Analytics functions

RANK()、DENSE_RANK()、ROW_NUMBER()

使用示例:

其中PARTITION by calling_nbr可选,若加上则是窗口内统计,否则则是全局统计。

部分结果如下:

(更多…)

分类:Apache Hive
标签:,

Hive常用操作记录

1条评论3,532次浏览

记录日常工作中Hive相关的常用语句。之前总是东一个文件西一个文件的丢这些语句,导致需要用的时候总是找不到,要去网上重新查。

创建外部表

添加分区

设置NULL值的替代字符

OR
(更多…)

分类:Apache Hive
标签:
11
profile
  • 文章总数:81篇
  • 评论总数:241条
  • 分类总数:32个
  • 标签总数:45个
  • 运行时间:1253天

大家好,欢迎来到selfup.cn。

这不是一个只谈技术的博客,这里记录我成长的点点滴滴,coding、riding and everthing!

最新评论
  • Anonymous: :?: :razz: :sad:
  • Anonymous: 牛
  • Anonymous: 楼主你好,我偶尔也会 遇到Reconnect due to socket error: java.nio.channels.ClosedCha...
  • Anonymous: sdfs
  • Anonymous: :arrow: :neutral: :cry:
  • Anonymous: java.io.NotSerializableExcepti on: DStream checkpointing has been enabled but the DStreams with their...
  • wick: HI,请问一下,U,S,V得到 ,怎么得到近似矩阵 (用spark java),谢谢。
  • Michael Whitaker: Thank you for this blog, it was very helpful in troubleshooting my own issues. It seems that no...
  • Anonymous: :mad:
  • Anonymous: :???:
  • Anonymous: :mad: :mad: :mad:
  • 洋流: 哥们,我问个问题,你 把testOnborrow去掉了。。 如果得到的jedis资源...
  • 洋流: 哥们,我问个问题,你 把testOnborrow去掉了。。 如果得到的jedis资源...
  • Anonymous: :razz: :evil: :grin:
  • 张瑞昌: 有很多,比较常见的是 Jacob迭代法,一次迭代O (n^3),迭代次数不清楚 ...
  • Anonymous: :mrgreen:
  • lc277: 你好 我想问下一般删除节点 要多久,要删除的datano de大概用了1t,解除...
  • Anonymous: 你好 我想问下一般删除节点 要多久,要删除的datano de大概用了1t,解除...
  • Anonymous: :smile: :grin: :eek:
  • 李雪璇: 想要完整代码,可以帮 忙发给我吗