Appearance
7. 已知问题与故障处理
TIP
当进行 PODsys 部署出现问题,或者部署之后出现异常,可以查看本节的故障处理方法。
7.1 计算节点进入PXE出现异常
1. docker容器交互式命令行输入
shell
cat /workspace/log/dnsmasq.log检查 DHCP 服务是否为计算节点分配IP地址
2. 计算节点没有分配到IP地址
检查管理节点的防火墙是否开启,如果开启,请关闭。
config.yaml 文件中配置文件中的 dhcp_s - dhcp_e 太小。退出容器,修改 config.yaml,重新启动容器。
3. 计算节点分配到IP,但是下载文件出错
检查管理节点网口的IP地址是否与 dhcp_s - dhcp_e 在同一网段。
显示 NBP filesize is 0 Bytes,可能原因有交换机划分了VLAN或其它配置导致无法传输文件,网卡损坏或网卡不支持PXE。
检查方法
将存在问题的计算节点和管理节点直连。
7.2 计算节点安装过程中卡住
通过 PODsys 监控界面查看计算节点安装状态。如果计算节点在检测到硬盘不在位情况(Disk 出现 ✗),请检查机器。
如果硬盘(Disk)已经是 ✓,然后安装卡住,可能是因为节点的非目标硬盘上存在另一个系统。例如:目标 sda,但是 sdb 存在系统。原因是 ubuntu-vg-1 名字冲突。
解决办法
- 删除节点非目标硬盘上的系统。
- 修改 /user-data/user-data 中的 ubuntu-vg-1 为 ubuntu-vg-2。
7.3 部署完成后的异常处理
- NVIDIA 驱动版本和 nv-fabricmanager 版本要保持一致。如果手动升级驱动,不要忘记同步升级 nv-fabricmanager。