Xid 消息是 NVIDIA 驱动程序向操作系统的内核日志或事件日志打印的错误报告。Xid 消息表明发生了一般的 GPU 错误,通常是由于驱动程序错误地编程或者发送给 GPU 的命令被损坏所导致的。GPU 硬件、NVIDIA 软件或者用户应用程序出现问题时都有可能产生 Xid 消息。
用户在机器学习平台使用 GPU 时,可以通过任务 / 服务详情页的监控面板查看一段时间内的 Xid 数量。不同 Xid 事件的含义不同,下文以 “用户是否可能自行解决” 为标准,将常见的 Xid 错误分成两类进行介绍,完整的 Xid 说明详见 NVIDIA 官方文档。
当遇到下列 Xid 错误时建议依次按照如下步骤尝试解决:
尝试重新提交负载并观察 Xid 错误是否消失。
若错误仍有发生则尝试自检代码或分析日志,确认是否因用户代码导致的 Xid 错误。
若确认代码无误则联系机器学习平台客服人员处理。
Xid | 说明 |
---|---|
13 | Graphics Engine Exception。 |
31 | GPU memory page fault。 |
43 | GPU stopped processing。 |
45 | Preemptive cleanup, due to previous errors -- Most likely to see when running multiple cuda applications and hitting a DBE。 |
68 | NVDEC0 Exception。 |
当遇到下列 Xid 错误时建议直接联系机器学习平台客服人员处理:
Xid | 说明 |
---|---|
32 | Invalid or corrupted push buffer stream。 |
38 | Driver firmware error。 |
48 | Double Bit ECC Error(DBE)。 |
61 | Internal micro-controller breakpoint/warning。 |
62 | Internal micro-controller halt。 |
63 | ECC page retirement or row remapping recording event。 |
64 | ECC page retirement or row remapper recording failure。 |
74 | NVLINK Error。 |
79 | GPU has fallen off the bus。 |
92 | High single-bit ECC error rate。 |
94 | Contained ECC error。 |
95 | Uncontained ECC error。 |