Programming Error/Ubuntu

[GPU 관련 에러] Unable to determine the device handle for GPU 0000:19:00.0: GPU is lost. Reboot the system to recover this GPU

Barca 2021. 7. 23. 20:44

Unable to determine the device handle for GPU 0000:19:00.0: GPU is lost. Reboot the system to recover this GPU.

 

GPU를 잘 사용하던 도중에 위와 같은 에러를 발견했습니다. 여러 사이트를 찾아보니 비슷한 이슈가 많이 존재했고,

1) GPU 학습 온도가 너무 올라가서 그렇다.

2) GPU 연결 접촉이 제대로 되지 않을 때 발생한다.

 

위 두 가지 정도가 대부분이었습니다. 그래서 저는 본체를 열고 GPU를 연결해주는 PCIe선을 뺐다 다시 끼워봤는데 바로 해결이 되었습니다.