【障害報告】2025-01-13発生:ジョブスケジューラ障害

2025-01-15

(2025-01-15 16:15追記) 影響を受けた予約の一覧を記載しました。

(2025-01-21 15:10追記) ジョブスケジューラ障害の影響により、予約した日時が1/13 19:00より前、かつ「利用終了」日時が1/13 19:00以降の予約において、ポータルサイト上のSTATEが「エラー」表示となることが確認されています。これは見かけ上の不具合で予約自体には問題はありません

(2025-01-22 10:30追記)「エラー」表記となっていた項目については正しいステータスに更新されました。

以下の通りジョブスケジューラに障害が発生しました。すでに本障害は解消済みです。

1.発生時刻

 障害発生時刻:2025-01-13 19:00
 障害復旧時刻:2025-01-14 18:55

2.障害内容

 ジョブスケジューラに障害が発生し、ジョブの実行が開始されない状態となっていました。
 また、期間中 ジョブスケジューラ関連のコマンド(qsub,qstatなど)が使用できませんでした。
 インタラクティブジョブ専用キュー(iqrshなど)には影響はありませんでした。

 本障害復旧のため一部ジョブの投入情報を削除させていただきました。
 障害発生中に既に実行開始されていた非予約ジョブについては、本障害の影響はなく、正常に実行されています。
 障害発生中の予約につきましては、現在調査中です。

3.影響を受けたジョブ

 後述のジョブについては、障害の影響により投入情報を削除させていただきました。
 ジョブが削除されている場合、再度ジョブの投入を実施する必要があります。
 削除対象となったジョブについては、追ってポイントを返却させていただきます。
 [対象ジョブ]
 ジョブID 2600000~2649999 (1/13 17:49:39頃から1/14 18:20頃までに投入されたジョブが該当します)

 障害発生中に実行時間がかかっている下記AR-IDの予約に対するTSUBAMEポイントの補償につきましては、個別に連絡させていただきます。

 2053 2119 2120 2191 2192 2203 2209 2212 2213 2215 2217 2222 2223 2224 2227 2234 2235 2236 2238 2239 2240 2245 2247 2252 2253 2255

4.再発防止および今後の対応

 システム負荷軽減のため、1ユーザあたりの同時ジョブ投入数に上限値を設けさせていただきます。
 詳細については別途お知らせします。