执行midas流程报错:RPC channel is closed


#1

问题描述:

Root Cause:
spark seession 未启动,原因可能有:
1)集群资源分配不够
2)产品版本已知问题

遇到报错可以先快速定位下midas-server.log:


如报错中显示的分配给executor 的资源大于yarn可分配出去的,所以可以调低executor的memory,具体参数为:spark.executor.memory

Known issues Work around:
如果是TDH5.0版本
Sophon 服务器与其他服务之间jdk版本不同(jdk1.7与jdk1.8),用户可以在TDH上为 Sophon 添加配置参数:spark.yarn.appMasterEnv.JAVA_HOME 和 spark.executorEnv.JAVA_HOME; 参数值为 yarn 所在 pod 中 jdk1.8 的路径,默认为:/usr/java/jdk1.8.0_25, 配置文件为 spark-defaults.conf。
如果出现类似 “Application application_xxxx_xx failed 1 times due to AM Container for appattempt_xxx_xx_xxx exited with exitCode 1” 的错误,几乎可以断定为是 java 没有配对的问题。
除了检查上面两个参数有没有配对之外,请检查 yarn 的 pod 里面是否有 jdk1.8。如果没有,请升级到最新的 yarn。

如果是5.1版本及其之后
检查**/etc/yarn1/conf**


如果如上图所示没有core-site和hdfs-site,需要通过手动添加这两个配置的软链至/etc/hdfs1/conf下的对应文件,并重启sophon-server,正确的配置如下: