特定の処理でGPUが利用不可能となる障害について (04-08更新)

2026-04-06

(4/8(水)15:00追記:臨時メンテナンスが終了したことを追記しました)
(4/7(火)12:15追記:4/8(水)の臨時メンテナンスについて追記しました)

現在、TSUBAMEにおいて、GPUを用いた特定の処理を実施した際に当該GPUがエラー状態となり、利用不可能となる事象が確認されています。
発生原因について調査中ですが、現時点ではハードウェアではなく、GPUドライバに起因する事象である可能性が高いと考えています。
また、該当のエラーが発生したジョブを再実行した場合、多数のノードにおいてGPUが利用不可能となる恐れがあります。

大変申し訳ございませんがGPUを利用したジョブがその途中で停止した場合、特にエラー発生後に nvidia-smi の出力に下記のようなものが含まれた場合は同様のジョブの投入をお控えいただきますようお願いいたします。

本事象が解消次第、本お知らせにて再度通知させていただきます。

$ nvidia-smi | grep ERR
|ERR!   34C    P0            N/A  /  N/A  |   11637MiB /  95830MiB |     N/A      Default |
|                                         |                        |                 ERR! |
|ERR!   37C    P0            N/A  /  N/A  |   14457MiB /  95830MiB |     N/A      Default |
|                                         |                        |                 ERR! |

(4/7(火)12:15追記)

本障害対応のため、4/8 11:00-17:00で計算ノードの臨時メンテナンスを実施します。
本期間内の計算ノード予約は出来ませんのでご注意ください。
(ジョブの投入は可能です。メンテナンスが終了したノードから順次解放されます)

また、本障害対応のため現在MPS機能が利用できません。
本制限事項の解除時期については、決定次第別途連絡します。

 

(4/8(水)15:00追記)

計算ノードの臨時メンテナンスが完了しました。併せて、MPS機能の利用制限も解除します。
GPUドライバのバージョンが 590.48.01 から 580.105.08 に変更されているためご注意ください。
GPUドライバのバージョン変更に伴い、GPUを利用するアプリケーションの挙動が変わる可能性があります。
動作しない場合など、不具合が発生した場合は再ビルドをお試しください。