お知らせ: 障害情報

障害情報
2016/12/27
[物性研システムB] ファイルシステム不具合の修正について
稀にジョブが異常終了する不具合が発生しておりましたが、11月度の定期保守にて解消しました。

 

 

物性研スーパーコンピュータシステム共同利用
平成28年度研究代表者・共同研究者各位

 


平素より物性研スーパコンピュータシステムをご利用いただきありがとうございます。

 


昨年より、高並列ジョブの各プロセスより大きなファイルを一度に出力すると、稀にジョブが異常終了する不具合が発生しておりましたが、11月度の定期保守にてファイルシステムをバージョンアップすることで解消いたしました。

  • 障害の発生条件と影響
    1024〜1728プロセスのジョブが、各プロセスから大きなファイル(数百MB〜数GB程度)を一度に出力しようとすると、稀にジョブが異常終了する。また、その障害発生時に、当該ジョブと同じ経路で同時にファイルシステムにアクセスしようとした小規模ジョブも合わせて異常終了することがある。

 

  • 発生原因
    |物性研のシステム構成において、ファイルアクセスのタイムアウト値が不十分であり、接続がタイムアウトすることでファイル出力に失敗し、異常終了に至る。

 

  • 対応
    11月度の定期保守にて、ファイルサーバとの通信方法を変更。当該障害が発生しなくなったことを確認。

 

 


なお、本障害の影響を受けた方には、別途メールにてお知らせをしております。

 


ご不便をおかけして大変申し訳ありません。
以上、よろしくお願いいたします。

 


—-
物性研究所大型計算機室
center__at__issp.u-tokyo.ac.jp (__at__を@にして下さい。)