解决Hadoop集群zkfc服务无法启动

发表于2017-07-21|更新于2019-06-01|Hadoop

|总字数:132|阅读时长:1分钟|浏览量:

新建集群以后，由于fs.defaultFS的配置与hdfs-site.xml的配置不一致，后来集群运行以后用重新修改了配置，重启集群后发现zkfc服务无法启动，导致namenode不自动切换了。

解决办法：
原因是因为修改配置文件后，重启集群，会把zookeeper中的znode给删除，为什么会删除我也不清楚，反正我在zookeeper中没有发现这个目录。
只需要执行如下命令即可：

1	hdfs zkfc -formatZK

文章作者: Charles

文章链接: https://tech.tvzr.com/2017/07/21/hadoop-zkfc-start-error/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源码农笔记！

赞助

wechat
alipay

相关推荐

Hadoop Timed out waiting 20000ms

今天发现测试环境Hadoop集群开始频繁宕掉，查看namenode日志发现有如下报错信息： 1java.io.IOException: Timed out waiting 20000ms for a quorum of nodes to respond. 原因是因为namenode与journalnode通信时，超过20000ms，触发了默认设置的超时时长，解决办法：在hdfs-site.xml中加入如下配置 123456789101112<property> <name>dfs.qjournal.start-segment.timeout.ms</name> <value>90000</value></property><property> <name>dfs.qjournal.select-input-streams.timeout.ms</name> <value>90000</value></property&...

Hadoop命令-fsck

在HDFS中，提供了fsck命令，用于检查HDFS上文件和目录的健康状态、获取文件的block块信息和位置信息等。具体命令介绍： -move: 移动损坏的文件到/lost+found目录下-delete: 删除损坏的文件-openforwrite: 输出检测中的正在被写的文件-list-corruptfileblocks: 输出损坏的块及其所属的文件-files: 输出正在被检测的文件-blocks: 输出block的详细报告（需要和-files参数一起使用）-locations: 输出block的位置信息（需要和-files参数一起使用）-racks: 输出文件块位置所在的机架信息（需要和-files参数一起使用）例如要查看HDFS中某个文件的block块的具体分布，可以这样写：hadoop fsck /your_file_path -files -blocks -locations -racks示例： 1234567891011121314151617181920212223242526#hdfs fsck /tmp/test/input...

关闭Hadoop集群时提示no xxx to stop

今天迁移机器的时候，需要手动关闭所有的机器。那么关机之前当然是要先安全的关闭hadoop的相关服务，但是由于这个集群不是我搭建的，发现有些机器在关闭集群的时候出现no xxx to stop，就我发现的来说有namenode，journalnode，jobtracker这三个。问题的原因Hadoop在stop的时候依据的是启动是保存到pid文件的pid.而默认的进程号保存在/tmp下，Linux 默认会每隔一段时间（一般是一个月或者7天左右）去删除这个目录下的文件。因此删掉pid文件后，namenode自然就找不到datanode上的这个进程了。(不同的进程的进程id文件名会有变化) 解决办法临时解决针对这次集群关闭,我们需要做的是:首先保证集群没有负载,然后去手动杀死datanode/journalnode/zkfc最后去杀死namenode(注意顺序) 永久解决在配置文件hadoop_env.sh中配置export HADOOP_PID_DIR可以解决这个问题。

hbase 异常 Server is not running yet

发现问题同步时间后，发现Hbase统统挂掉了，重启hadoop后，发现Hbase无法正常启动了，报如下错误： 123456789Caused by: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yetat org.apache.hadoop.hbase.regionserver.RSRpcServices.checkOpen(RSRpcServices.java:886)at org.apache.hadoop.hbase.regionserver.RSRpcServices.scan(RSRpcServices.java:1956)at org.apache.hadoop.hbase.protobuf.generated.ClientProtos$ClientService$2.callBlockingMethod(ClientProtos.jav...

查看修复HDFS中丢失的块

检测缺失块1hdfs fsck -list-corruptfileblocks 1hdfs fsck / | egrep -v '^\.+$' | grep -v eplica 查看上面某一个文件的情况 1hdfs fsck /path/to/corrupt/file -locations -blocks -files 解决方法如果文件不重要，可以直接删除此文件；或删除后重新复制一份到集群中如果不能删除，需要从上面命令中找到发生在哪台机器上，然后到此机器上查看日志。参考 http://centoshowtos.org/hadoop/fix-corrupt-blocks-on-hdfs/ http://stackoverflow.com/questions/19205057/how-to-fix-corrupt-hadoop-hdfs

关于DataXceiver error processing unknown operation的错误

接到监控同事电话，有一台datanode机器因为重启，导致无法启动datanode服务。后来启动以后，监控日志发现有如下报错： 1234562017-07-24 09:41:09,456 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: NDAPP-DATA-13:50010:DataXceiver error processing unknown operation src: /10.1.220.44:46565 dst: /10.1.0.52:50010java.io.EOFException at java.io.DataInputStream.readShort(DataInputStream.java:315) at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.readOp(Receiver.java:56) at org.apache.hadoop.hdfs.server.datanode.DataX...

评论

WalineDisqus