PyTorch CUDA RuntimeErrorの解決策:CUDAエラー:すべてのCUDA対応デバイスがビジーまたは使用不可
Solution Pytorch Cuda Runtimeerror
全体的な状況:ランダムに占有された複数の人と複数のカード
ログインして、リモートsshの直後に実行します
エラーを報告しました:
RuntimeError:CUDAエラー:すべてのCUDA対応デバイスがビジーまたは使用不可です
OOMではない場合、エラーはすべてのCUDAデバイスがビジーまたは役に立たないことを意味します
しかし実際には、nvidia-smiを観察すると、2番と3番のカードのメモリがほぼいっぱいになっていることがわかります。
ログインするだけでデフォルトですべてのカードが表示されるため、メモリが不足しているcudaデバイスがマルチカードトレーニングに使用されます。
このとき、コマンドラインで次のように入力します。
export CUDA_VISIBLE_DEVICES=0, 1
プログラムで使用可能なすべてのcudaデバイスを、0と1の番号が付いた2枚のカードに一時的に変更できます(再起動後にリセットされます)
プログラムを再実行してください、正常に実行されます〜