TDH 5.X升级工具使用说明(升级必读)(适用于5.0.0-final至5.1.1-final版本)


#1

5.x中manager和tos的升级脚本在TDH-Basic-.tar.gz安装包中,需要下载TDH-Basic-.tar.gz包,并在Manager节点上解压。在解压出的transwarp/script目录下有3个文件:
(1). UpgradeManager.sh.doc (61.3 KB)
(2). CheckEnvironment.sh.doc (3.2 KB)
(3). Upgrade.conf.doc (495 字节)
目前(5.1.1-final发布为止)正式的安装包里还没有包含这3个脚本,因此先放在此处,请自行下载去掉.doc后缀并放在transwarp/script目录下。

重点提醒:

  1. TDH 5.X中Transwarp Manager采用了新的架构和服务部署方式,因此5.X的升级脚本只会升级Manager和TOS,其他已安装服务需要进入“应用市场”页面升级
  2. 升级前必须要参照下文 “升级前环境检查” 进行人工检查,可以有效缩短升级造成的停机时间
  3. 升级第一步脚本会自动进行必要环境检查,检查环境成功会输出“Check environment finished”。环境检查出错不需要revert,解决环境问题后再次升级即可
  4. 升级过程中出现任何问题,先根据提示去升级脚本所在目录查看upgrade.log,解决问题后再revert,执行sh StartUpgrade.sh upgradeCluster重新升级
  5. TDH 5.0.0-final以后的版本(不含TDH 5.0.0-final)服务的image可以从Harbor上拉取(前提是在Manager许可证页面上传了可用的Snowflake账号和密码),若待升级的集群无法访问Harbor或没有上传Snowflake账号密码,则升级目标为商业版时还需要下载 TDH-Image-Registry-.tar.gz 和/或 TDH-Image-Registry-.tar.gz 包,并在Manager节点上解压

脚本说明

升级前环境检查:

  1. 检查升级脚本所在分区是否有足够空间(建议大于20G,如果需要升级Registry和Machine Learning包建议大于50G)
  2. 如果需要升级Registry和Machine Learning包,检查docker vg是否有有足够空间(docker info执行结果中Data Space Available要大于Machine Learning包大小)
  3. 检查/etc/hosts和每台机器的hostname是否正常
  4. 检查集群是否已正确配置无秘钥登录,以及无秘钥登录用户是否为NOPASSWD sudoer
  5. 检查Guardian服务状态是否正常,并确保所有Guardian Server的8380页面都能正常访问

升级步骤:

  1. 修改 Upgrade.conf 中的参数,下面参数需要修改

  1. 运行sh UpgradeManager.sh upgradeCluster !!注意在同一个节点上不要连续执行UpgrdeManager.sh,如果升级失败,需要先revert再升级,多次连续执行ManagerUpgrade.sh可能会导致一些奇怪的问题。如果是非root用户安装的的,请使用 sudo sh ManagerUpgrade.sh upgradeCluster
  2. 脚本在shell中打出 “Upgrade cluster finished” 说明脚本执行成功。

回滚:

如果升级脚本未执行成功,那么需要检查transwarp/script/upgrade.log,找到错误原因并修复后在manager节点上运行sh UpgradeManager.sh revertCluster执行回滚。脚本在shell中打出 “Revert cluster finished” 说明回滚执行成功。
回滚成功后,再执行sh UpgradeManager.sh upgradeCluster进行升级。

已知问题:

关于Guardian的升级:

5.0和5.0.1版本中,因为启动顺序问题可能造成guardian server无法正常启动,需要在manager节点上修改

1、升级前版本是5.0时,需要在manager节点 /var/lib/transwarp-manager/master/content/meta/services/GUARDIAN/transwarp-5.0/templates/guardian-env.sh.ftl 末尾加上
或,升级前版本是5.0.1时,需要在manager节点 /var/lib/transwarp-manager/master/content/meta/services/GUARDIAN/transwarp-5.0.1-final/templates/guardian-env.sh.ftl 末尾加上:

export TIMEOUT=120
export STRICT=1

2、升级后版本是5.0.1时,需要在解压的安装包中修改 transwarp/service_meta/GUARDIAN/transwarp-5.0.1-final/templates/guardian-env.sh.ftl,末尾同样加上:

export TIMEOUT=120
export STRICT=1

关于Rubik的升级:

Rubik从transwarp-5.1版本开始强制依赖于Workflow服务,所以如果当前安装的Rubik版本是transwarp-5.0.x时将无法通过应用市场进行升级。解决方法:在升级服务前先删除Rubik服务,然后在完成其他服务的升级之后再安装期望版本的Rubik服务即可。


TDH 5.X RC版本升级指南
在线客服
在线客服
微信客服
微信客服