2025-01-16
先日発生したジョブスケジューラ障害では、ユーザの皆様に多大なご迷惑をおかけしたことをお詫び申し上げます。
今回の障害の原因の一つとして、ユーザの誤操作により短時間に大量のジョブが投入されたことを確認しております。
今後同様の誤操作を行った場合に、システム全体へ影響が波及することを防ぐため、下記のとおりジョブ投入数の制限を開始いたします。
- 1ユーザ当たりの同時投入ジョブ数制限値 2000ジョブ
- 実行中および実行待ちのジョブが含まれます、実行が終了したジョブは含まれません。
- 制限値に達した場合、qsub等のコマンド実行時にエラーとなります。
- なお、上記制限値はシステムダウンを防ぐための設定であり、この数までであれば投入してよいという意味ではありません。
可能な範囲でジョブをまとめるなど、スケジューラ負荷軽減にご協力ください。
- 実施時期: 2025-01-17 10:00
ご理解とご協力をよろしくお願いいたします。