程序员的自我修养
Home » CDH » CDH安装中的一些问题及解决方法

CDH安装中的一些问题及解决方法

2条评论6,750次浏览

Yarn服务无法启动1

有一次同事拿着我写的安装手册去安装CDH,结果在启动Yarn服务这一步一直失败,而且没有log文件生成,也就是根本就不知道是什么错误。

经过百般尝试后依然无果。于是问同事是不是严格按照我的文档上来的,同事说是。结果又尝试和排查了很多次后,同事突然说,我想起来了,打通ssh没按照你的来,你是生成key了分发到其它机器,其实有种口令直接就能分发key到其它机器,不用在本机生成。比如这样ssh-copy-id -p 8282 -i ~/.ssh/id_rsa.pub user@ip

然后,我怀着崩溃的心情告诉了他,哥哥,master机器也要能免密码登录自己啊!!

最后,做好master机器免登录自己后即可成功安装。

Yarn服务无法启动2

报错信息:

这个错误是CM的一个bug,解决方法为修改/opt/cm-5.3.0/lib64/cmf/agent/src/cmf/util.py文件。将其中的代码:

修改为:

然后重启所有Agent即可。

HDFS服务无法启动

若HDFS服务无法启动,通常是第二次尝试安装中才会遇到,这是只要将上次安装时设置的Namenode和DataNode文件夹下的数据全部删除即可。

Host Monitor和Service Monitor服务无法启动

这个错误的报错信息如下:

初步一看,应该是这个两个服务所用的LevelDB文件没有正确的创建,于是删除/var/lib下两者的目录并重试,还是失败。于是尝试在其它机器上安装这2个服务,怎奈每次后退到选择安装机器的那一步时,关于Host Monitor和Service Monitor设置的项目就不见了,就算出现了且设置到其它机器上也不会安装在其它机器上,还是安装在master机器上。

后在google论坛上看到有人说可能是内存设置过低或者“进程打开最大文件数”过低造成的。考虑到打开句柄这步操作在安装CDH之前就已经进行且重来没有出过问题,于是就没有考虑。结果尝试数次过后还是不行。

最后无奈中看了下句柄数ulimit -n,发现居然是1024。然后登录其它slave节点查看,发现都是配置的65535。这是什么情况?同样的配置,会出现不同的结果。最后查看了ulimit -u等配置,发现除了master节点的句柄数配置没有生效以外,其它的都生效了。

最后无意中尝试了下telnet登录master节点,发现ulimit -n的结果居然是65535。好吧,至此终于知道原因了。master节点由于有DCN网络的IP,所以为了应对安全扫描安装了没有心脏漏血漏洞的高版本ssh,而其它slave节点并没有安装。看来是ssh登录造成的打开句柄数出现了异常。只不过我到现在为止都不知道为何系统级别的设置会受到登录方式的影响。

解决方法:由于只有句柄数配置未生效,于是在.bashrc中添加了ulimit -HSn 65535。重新安装,终于成功启动Host Monitor和Service Monitor服务。

8888,50070,8088等端口无法访问

现象:master机器通过wget可以正确的得到页面,但是外网却无法获取,而且网络的设置是正确的。

查看端口占用发现这些端口全部绑定在内网IP上而不是0.0.0.0。

解决方法:去各自的配置文件中配置即可,选择绑定至0.0.0.0端口,然后重启即可。

oozie服务启动失败

通常是第二次尝试安装中才会遇到,报错内容大概是数据库已存在。

解决方法:删除/var/lib/oozie/data文件夹即可。

HUE服务启动失败

报错信息是找不到libxslt.so.1。

解决方法:yum install libxslt即可。

(转载本站文章请注明作者和出处 程序员的自我修养 – SelfUp.cn ,请勿用于任何商业用途)
分类:CDH
标签:
2条评论
  1. victor说道:

    您好,博主我现在报的错误和你类似但是有一点不太一样,yarn Error found before invoking supervisord: dictionary update sequence element #91 has length 1; 2 is required 那么我应该怎么修改呢

发表评论


profile
  • 文章总数:79篇
  • 评论总数:402条
  • 分类总数:31个
  • 标签总数:44个
  • 运行时间:1013天

大家好,欢迎来到selfup.cn。

这不是一个只谈技术的博客,这里记录我成长的点点滴滴,coding、riding and everthing!

最新评论
  • 晴子: 在主节点初始化CM5数据库的时候报错误:Verifying that we can write to /opt/cm-5.9.0/etc/cloudera-scm -server log4j:ERROR Could not...
  • zhangnew: 就4题 :?:
  • linxh: “ 但要是遇到预先并不知道数组的长度而又需要获取正确的(或者称之 为原始的)split长度时,该如何处理呢。。? ” 印象中可以split函数参数传-1?
  • linxh: 班门弄斧一下: ssh host cmd 和直接ssh上后cmd结果不一样是因为ssh直接运行远程命令 是非交互非登录模式与ssh上去得到一个登录交互式Shell二 者加载的环境变量不一样。
  • 匿名: 其实文本分类和数字分类是一样的,只是文本分类需要多一个步骤, 就是计算它的tf-idf值将其转换为double类型
  • yurnom: 可能苹果最近又改变了返回值吧,最近没做测试了。 BadDeviceToken一般测试环境和正式环境弄错的情况 下会出现。
  • Anonymous: :razz: 博主,良心贴啊, 最近也在弄apns推送。 有个问题想请教你一下啊。 你博客中写的 Unregistered 错误,有准确的说明吗, 我看你博客中写的:...
  • 一波清泉: 回复邮箱: 1004161699@qq.com 多谢
  • Anonymous: 17/02/09 01:15:02 WARN Utils: Service ‘SparkUI’ could not bind on port 4040. Attempting port...
  • pacificLee: :twisted:
  • 小码: 为什么没有后面的呢,只有前10个
  • Anonymous: :lol:
  • Anonymous: :razz: 楼主是属于会聊天的。 我想问,sqoop发了几个版本了,应该没这些问题了吧。
  • Anonymous: Config.kafkaConfig.kafkaGroupI d 这个是指自己配置的group id 还是从 import org.apache.kafka.common.config .Config 这个类...
  • Anonymous: ZkUtils.getPartitionsForTopics (zkClient, Config.kafkaConfig.topic) 那个方法是在 spark-streaming_2.10 中 kafka...
  • Anonymous: ZkUtils.getPartitionsForTopics (zkClient, Config.kafkaConfig.topic) 你确定 kafka 里面有这个类 ? 个人在kafka 最新 稳定版...
  • Anonymous: :roll:
  • Anonymous: 很不错,试问有java版的吗?
  • Anonymous: 赞
  • Anonymous: 哈哈 看楼主的吐槽乐死了 where子句是可以写的 同样找不到资料 一点点试出来的 select id from xxxx where ${CONDITIONS} and 1=1 and 2=2 limit 4