解决Hadoop集群zkfc服务无法启动

发表于2017-07-21|更新于2019-06-01|Hadoop

|总字数:132|阅读时长:1分钟|浏览量:

新建集群以后，由于fs.defaultFS的配置与hdfs-site.xml的配置不一致，后来集群运行以后用重新修改了配置，重启集群后发现zkfc服务无法启动，导致namenode不自动切换了。

解决办法：
原因是因为修改配置文件后，重启集群，会把zookeeper中的znode给删除，为什么会删除我也不清楚，反正我在zookeeper中没有发现这个目录。
只需要执行如下命令即可：

1	hdfs zkfc -formatZK

文章作者: Charles

文章链接: https://dev.net.cn/hadoop-zkfc-start-error/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源码农笔记！

赞助

wechat
alipay

相关推荐

Kerberos认证后访问HDFS提示Not attempting to re-login错误

场景CDH6.3.4集群，开通了Kerberos认证，在客户端得机器上已经通过了Kerberos得认证并且缓存了票据。由于是新装的系统，安装了最新的jdk-8u371。报错执行hdfs dfs -ls / 命令频繁的打印如下错误： 1org.apache.hadoop.security.UserGroupInformation Not attempting to re-login since the last re-login was attempted less than 600 seconds before 错误原因找了很久，忽然想到了曾经遇到过这种问题，是JDK版本太低导致的，但我安装了最新的JDK1.8，那就有可能是JDK版本太高导致的。解决办法下载了一个jdk-8u221版本，完美解决问题。CDH虽然写了支持JDK1.8，但小版本也会影响到它的正常运行，所以以后遇到类似得情况先调整下JDK版本，别太高也别太低。最好是看下官方有没有推荐的版本。

在Windows11上使用WSL安装Hadoop伪分布式

最近调试程序，由于各种原因把，不允许开发机器连接Hadoop集群，只能在本机部署了，我使用了Docker和WSL（适用于Linux的Windows子系统）两种方法，经过对比，最终决定用WSL，Docker还不算稳定，动不动就闪退了。环境 Hadoop 3.2.2 JDK 1.8.221 WSL子系统，我选择的是Ubuntu22.04 LTS 如果没开启WSL子系统，可通过如下命令进行开启： 1Enable-WindowsOptionalFeature -Online -FeatureName Microsoft-Windows-Subsystem-Linux JDK 默认算你配好的，如果只使用Hadoop，那么JDK11也是阔以滴，但我还需要用Hive，所以只能用JDK1.8了。部署Hadoop下载Hadoop安装包在WSL终端中（不是PowerShell），执行如下命令： 1wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.2/hadoop-3.3.2.tar.gz 如果提示证书有问题，可以添加--no-...

关于DataXceiver error processing unknown operation的错误

接到监控同事电话，有一台datanode机器因为重启，导致无法启动datanode服务。后来启动以后，监控日志发现有如下报错： 1234562017-07-24 09:41:09,456 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: NDAPP-DATA-13:50010:DataXceiver error processing unknown operation src: /10.1.220.44:46565 dst: /10.1.0.52:50010java.io.EOFException at java.io.DataInputStream.readShort(DataInputStream.java:315) at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.readOp(Receiver.java:56) at org.apache.hadoop.hdfs.server.datanode.DataX...

Hadoop数据迁移

最近有个工作是把数据从CDH5.8迁移到新集群CDH6.1，数据迁移首先想到的就是hadoop distcp命令，distcp(distributed copy)是用于大型集群间/集群内复制的工具。它使用MapReduce来实现其分发，错误处理和恢复以及报告。它将文件和目录的列表扩展为映射任务的输入，每个任务都会复制源列表中指定的文件分区。同版本集群间数据迁移对于Hadoop版本一致或差一两个小版本，可以使用HDFS协议即可,在target集群运行如下命令 1hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo 其中hdfs://nn1:8020/foo/bar为source集群，hdfs://nn2:8020/bar/foo为目标集群。不同版本集群减数据迁移对于版本差距较大，互相不兼容的集群，可以使用hftp协议和webhdfs来实现数据迁移。 hftp协议在target集群运行如下命令: 1hadoop distcp hftp://nn1:8020/foo/bar hdfs://nn2:80...

查看修复HDFS中丢失的块

检测缺失块1hdfs fsck -list-corruptfileblocks 1hdfs fsck / | egrep -v '^\.+$' | grep -v eplica 查看上面某一个文件的情况 1hdfs fsck /path/to/corrupt/file -locations -blocks -files 解决方法如果文件不重要，可以直接删除此文件；或删除后重新复制一份到集群中如果不能删除，需要从上面命令中找到发生在哪台机器上，然后到此机器上查看日志。参考 http://centoshowtos.org/hadoop/fix-corrupt-blocks-on-hdfs/ http://stackoverflow.com/questions/19205057/how-to-fix-corrupt-hadoop-hdfs

如何查看HDFS默认的nameservices命名空间

查看HDFS的默认命名空间命令： 1hdfs getconf -confKey fs.default.name 或者 1hdfs getconf -confKey fs.defaultFS 或者查询core-site.xml中的dfs.nameservices的值。 1hdfs getconf -confKey dfs.nameservices

评论