お知らせ: 障害情報

障害情報
2016/05/13
MPIプログラムがMPI_WATCHDOG_TIMERに関するエラーを出力して異常終了する不具合について
物性研システムBにおいて、MPI並列ジョブが以下のようなエラーを出力し、異常終了する不具合が発生しておりました。

 

 

物性研スーパコンピュータシステム共同利用
平成28年度研究代表者・共同研究者各位

 


物性研システムBにおいて、MPI並列ジョブが以下のようなエラーを出力し、異常終了する不具合が発生しておりました。

MPT ERROR: (ホスト名) has had continuous IB fabric problems for 600
        (MPI_WATCHDOG_TIMER) minutes trying to reach (ホスト名). If your
        application spends long periods of time between MPI or SHMEM calls
        you should consider increasing this timeout. Aborting.

 

この不具合は確率的に発生し、同じジョブを再度実行しても問題なく実行できる場合もあります。その後の調査により、SGIのMPIライブラリであるMPTの不具合が原因と判明いたしましたので、稼働当初より存在していた不具合と思われます。

 


5月度定期保守(5/13)にて、修正されたバージョンであるMPT2.13がデフォルトでロードされるようになり、本不具合は解消したものと思われます。

 


これまでに本不具合が原因でジョブが失敗したと思われる場合は、お手数ですがジョブIDをお知らせ下さい。ポイント返還等の措置を検討いたします。

 


ご不便をおかけして大変申し訳ありません。
以上、よろしくお願いいたします。

 


—-
 物性研究所電子計算機室
 center__at__issp.u-tokyo.ac.jp (__at__を@にして下さい。)