程序员的自我修养
Home » 文章归档 » 2014年十二月

CDH离线安装手册

8条评论15,327次浏览

公司终于有升级Hadoop版本的意思了,于是强烈推荐CDH版本,终于在再三的推荐下初步确定使用CDH版本了。于是CDH的测试集群搭建开始了。撒花...

  • CDH版本:5.3.0
  • 操作系统版本:CentOS 6.3
  • JDK版本:jdk-7u71-linux-x64
  • 资源下载:

系统环境搭建

  • 打通SSH
  • 配置Hosts
  • 关闭IPv6
  • 关闭SELINUX
  • 关闭防火墙
  • 打开句柄限制
  • 安装JDK
  • NTP

以上步骤参考Hadoop集群搭建全过程。其中JDK安装可能需要卸载操作系统自带的OpenJDK,命令:

(更多…)

分类:CDH
标签:,

战5渣系列——奇怪的Pig特性

8条评论13,364次浏览

最近连续2次发烧+工作比较忙导致好久没更新。今天更一发战5渣。

先感受下战5渣的境界:
only5

背景简介

用存储过程分分钟能搞定的事情,老总非要用hadoop跑,曰:hadoop是我们的核心竞争力。用hadoop的话算上导数据的时间,估计用时怎么也要6个小时左右。但这不是重点。重点是用pig计算出来的结果和存储过程跑出来的不一致,于是苦逼的排错之旅开始了。

第一个bug

第一个bug叫做“人祸”。队友发来的数据库表的文档居然漏掉了一个字段,于是这个字段后面的列全部对应错了。而我用pig又喜欢用X = FOREACH B1 GENERATE $4,$5,$16,$21,$45,$77,$81,$92,$47;这样的风格,并且加上如下注释:

好了不开玩笑了。虽然这个问题很没有技术含量,但教会了我这么一个真理:永远不要相信其它人,若确实需要相信其它人请选择性的相信那些靠谱的人!

第二个bug

第一个bug完全体现不出我是战5渣这么一个事实,那么第二个bug就能很好的诠释什么叫战5渣。

(更多…)

分类:Apache Pig, 战5渣
标签:,
11
profile
  • 文章总数:81篇
  • 评论总数:455条
  • 分类总数:32个
  • 标签总数:45个
  • 运行时间:1640天

大家好,欢迎来到selfup.cn。

这不是一个只谈技术的博客,这里记录我成长的点点滴滴,coding、riding and everthing!

最新评论