PyTorch CUDA RuntimeErrorの解決策:CUDAエラー:すべてのCUDA対応デバイスがビジーまたは使用不可



Solution Pytorch Cuda Runtimeerror



全体的な状況:ランダムに占有された複数の人と複数のカード
ログインして、リモートsshの直後に実行します
エラーを報告しました:
RuntimeError:CUDAエラー:すべてのCUDA対応デバイスがビジーまたは使用不可です
OOMではない場合、エラーはすべてのCUDAデバイスがビジーまたは役に立たないことを意味します

しかし実際には、nvidia-smiを観察すると、2番と3番のカードのメモリがほぼいっぱいになっていることがわかります。
nvidia-smi



ログインするだけでデフォルトですべてのカードが表示されるため、メモリが不足しているcudaデバイスがマルチカードトレーニングに使用されます。

このとき、コマンドラインで次のように入力します。



export CUDA_VISIBLE_DEVICES=0, 1

プログラムで使用可能なすべてのcudaデバイスを、0と1の番号が付いた2枚のカードに一時的に変更できます(再起動後にリセットされます)
プログラムを再実行してください、正常に実行されます〜