전체 글
-
[GPU 관련 에러] Unable to determine the device handle for GPU 0000:19:00.0: GPU is lost. Reboot the system to recover this GPUProgramming Error/Ubuntu 2021. 7. 23. 20:44
Unable to determine the device handle for GPU 0000:19:00.0: GPU is lost. Reboot the system to recover this GPU. GPU를 잘 사용하던 도중에 위와 같은 에러를 발견했습니다. 여러 사이트를 찾아보니 비슷한 이슈가 많이 존재했고, 1) GPU 학습 온도가 너무 올라가서 그렇다. 2) GPU 연결 접촉이 제대로 되지 않을 때 발생한다. 위 두 가지 정도가 대부분이었습니다. 그래서 저는 본체를 열고 GPU를 연결해주는 PCIe선을 뺐다 다시 끼워봤는데 바로 해결이 되었습니다.
-
[PyTorch 에러] Pytorch RuntimeError: stack expects each tensor to be equal sizeProgramming Error/PyTorch 2021. 7. 18. 15:13
PyTorch로 이미지 처리를 하다보면 한 번씩 마주해볼 수 있는 에러인데요. 기존에 쉽게 불러올 수 있는 CIFAR-10 이나 MNIST 같은 데이터가 아닌 개인 데이터들을 사용하다보면 각 이미지마다 Size가 다를 수 있습니다. 그래서 torch의 Dataset, DataLoader를 구현해서 사용하고, Dataset 내에서 torchvision이나 albumentation을 통해 Transforms를 정의해서 Resize, Flip 등의 Augmentation을 하실 텐데요. 이 때, 각 이미지마다 Size가 다른 경우에 동일한 Size로 Resize를 시켜주지 않으면, 위와 같은 오류가 발생하게 됩니다. 이는 Array나 Tensor는 각 차원이 모두 동일해야 Batch 형태로 묶어줄 수 있기 때..
-
[PyTorch DataLoader Num_workers 관련 에러]Programming Error/PyTorch 2021. 7. 13. 23:45
PyTorch의 DataLoader는 학습 데이터를 효율적으로 읽어오기위해 필수적으로 사용됩니다. DataLoader 중에서 num_workers라는 인자가 있는데 이는 데이터 로딩을 하기위해 몇 개의 CPU 프로세스를 사용할 것인지를 의미합니다. GPU에 데이터를 전달해주기 위해 적절한 수의 num_workers를 지정해줄 필요가 있습니다. 여기서는 num_workers 관련 에러에 대한 이슈를 다룰 것이므로 더 자세한 설명은 해당 블로그에서 잘 설명되어 있으니 참고하시면 될 것 같습니다. 우선 제가 num_workers 관련해서 마주한 에러는 다음과 같이 두 가지가 있었습니다. 1. BrokenPipeError: [Errno 32] Broken pipe 2. RuntimeError: DataLoade..