Hadoop/Yarn启动失败问题排查。

技术总结 yangchenhui 6785℃ 0评论
问题背景

最近一个客户需要配置hadoopHA高可用,失败之后按照官方文档回滚为非HA状态,但是整个集群总是失败状态。其中Timeline Service V2 Reader启动失败,导致整个yarn服务不可用。现将问题排查过程记录如下:


第一个问题:Timeline Service V2 Reader启动失败。

  1. 查看启动日志,发现报错hbase连不上。
2019-11-19 09:53:11,708 INFO  [main] client.RpcRetryingCallerImpl: Call exception, tries=6, retries=36, started=4959 ms ago, cancelled=false, msg=org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server bigdata1,17020,1574127905177 is not running yet
    at org.apache.hadoop.hbase.regionserver.RSRpcServices.checkOpen(RSRpcServices.java:1487)
    at org.apache.hadoop.hbase.regionserver.RSRpcServices.get(RSRpcServices.java:2443)
    at org.apache.hadoop.hbase.shaded.protobuf.generated.ClientProtos$ClientService$2.callBlockingMethod(ClientProtos.java:41998)
    at org.apache.hadoop.hbase.ipc.RpcServer.call(RpcServer.java:413)
    at org.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java:131)
    at org.apache.hadoop.hbase.ipc.RpcExecutor$Handler.run(RpcExecutor.java:324)
    at org.apache.hadoop.hbase.ipc.RpcExecutor$Handler.run(RpcExecutor.java:304)
  1. 查询资料,看看TimelineService是个什么服务,与hbase什么关系?
    https://blog.csdn.net/zhanglong_4444/article/details/87792600
  2. 也就是说yarn依赖的hbase服务,那就去ambari->yarn->config里面查询hbase相关配置。

  1. 将is_hbase_system_service_launch改为true,因为这个集群本身没有hbase服务,如果这个内置的也不启动,就会造成没有hbase可以连接。

第二个问题:DataNode启动之后,马上停止。

  1. 查看日志/opt/data/log/haddop/hadoop-hdfs-datanode.log ,发现报错
2019-11-19 10:11:23,132 ERROR datanode.DataNode (DataNode.java:secureMain(2883)) - Exception in secureMain
java.io.IOException: No services to connect, missing NameNode address.
    at org.apache.hadoop.hdfs.server.datanode.BlockPoolManager.refreshNamenodes(BlockPoolManager.java:165)
    at org.apache.hadoop.hdfs.server.datanode.DataNode.startDataNode(DataNode.java:1440)
    at org.apache.hadoop.hdfs.server.datanode.DataNode.<init>(DataNode.java:500)
    at org.apache.hadoop.hdfs.server.datanode.DataNode.makeInstance(DataNode.java:2782)
    at org.apache.hadoop.hdfs.server.datanode.DataNode.instantiateDataNode(DataNode.java:2690)
    at org.apache.hadoop.hdfs.server.datanode.DataNode.createDataNode(DataNode.java:2732)
    at org.apache.hadoop.hdfs.server.datanode.DataNode.secureMain(DataNode.java:2876)
    at org.apache.hadoop.hdfs.server.datanode.DataNode.main(DataNode.java:2900)
2019-11-19 10:11:23,134 INFO  util.ExitUtil (ExitUtil.java:terminate(210)) - Exiting with status 1: java.io.IOException: No services to connect, missing NameNode address.
2019-11-19 10:11:23,136 INFO  datanode.DataNode (LogAdapter.java:info(51)) - SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down DataNode at bigdata1/192.168.1.71
  1. 看样子像是nameservice找不到,而nameservice是hadoopHA里面的名词,怀疑HA回滚没有生效。
  2. 检查配置 ambari->hdfs->config,在基础配置中搜索nameservice1,发现dfs.namenode是nameservcie1,先改为bigdata1尝试,发现问题依然。
  3. 继续排查在custom hdfs-site.xml中找到很多HA相关配置,删除掉,重启之后不再停止,问题解决。

重启整个hadoop集群,启动正常了。


本文固定链接:杨晨辉的个人博客 » Hadoop/Yarn启动失败问题排查。
本站内容除特别标注外均为原创,欢迎转载,但请保留出处!

喜欢 (5)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址