お知らせ: 障害情報

障害情報
2017/05/07
[物性研システムB] ファイルシステム不具合について
システム B のファイルシステムの不具合によりジョブが異常終了する可能性があります。

 

 

物性研スーパーコンピュータシステム共同利用
平成28年度研究代表者・共同研究者各位

 


平素より物性研スーパコンピュータシステムをご利用いただきありがとうございます。

 


高並列ジョブの各プロセスより大きなファイルを一度に出力すると、稀にジョブが
異常終了する不具合が発生する不具合について、昨年11月の定期保守にて
修正されたとお伝えしましたが、その後、発生頻度は下がったものの
より高い負荷により発生する可能性が残されていることが判明いたしました。

 


・障害の発生条件と影響

高並列ジョブ(例えばF144cpuで3456プロセスのflat-MPIジョブ)の各プロセスから
一度にファイルを出力すると、ジョブが異常終了する。特にチェックポイントファイルを
出力する際に発生しやすい。稀ではあるが他のジョブの影響により、小規模ジョブで
あっても巻き添えになって異常終了する可能性もある。


本障害について、システム側で検出する仕組みを整えておりますが、100%検出できては
いないようです。

 


そこで、もし本障害によるジョブの異常終了が疑われるジョブがありましたら
システム障害報告窓口(center-sgi@issp…)までお知らせください。
原因を調査し、本障害の影響を受けたと判明した場合は対応を検討させていただきます。

 


システムは3月30日より期末保守に入り、31日より新年度の課題を実施いたしますが、
新年度になってからご報告いただいた場合にも対応いたします。

 


本障害については引き続き原因を調査しております。

 


ご不便をおかけして大変申し訳ありません。
以上、よろしくお願いいたします。

 


—-
物性研究所大型計算機室
center__at__issp.u-tokyo.ac.jp (__at__を@にして下さい。)