障害情報
2015/10/26
システムBにおけるシステム障害について
不定期にファイルの入出力が極めて遅くなる不具合が発生しております。
物性研スーパーコンピュータシステム
共同利用 平成27年度研究代表者・共同研究者各位
平素より物性研スーパコンピュータシステムをご利用いただきありがとうございます。
7月より稼働を開始しているシステムBですが、不定期にファイルの入出力が極めて遅くなる不具合が発生しております。発生条件の詳細は判明しておりませんが、ジョブがこの障害の影響をうけると
- ジョブの動作が遅くなるだけで、Segmentation Faultなどのエラーは起きない
- 制限時間内に終了すると見積もっていたジョブが極端に遅くなり、制限時間内に終わらなくなる
- 時間オーバーで失敗したジョブを再度投入すると問題なく動作することがある
- ファイルや標準出力にデータを出力しようとした途端にプログラムの動作がとまり、そのまま制限時間に到達してジョブが終了してしまう
- ジョブの終了時に
Elog ノード名: Found leftover processes [プログラム名] from ユーザID terminating...
というエラーを大量に出力する
といった現象がおきます。
システム側でも監視をするようにいたしましたが、本障害を全て検出できる状態ではありませんので、もし上記のような症状が出ましたら障害報告までジョブIDをお知らせください。障害に該当しているか確認し、該当しておりましたらポイントの返還処理をいたします。
現在、原因究明及び対策に全力で取り組んでおります。ご不便をおかけして大変申し訳ありません。
以上、よろしくお願い致します。