障害情報
2016/05/13
MPIプログラムがMPI_WATCHDOG_TIMERに関するエラーを出力して異常終了する不具合について
物性研システムBにおいて、MPI並列ジョブが以下のようなエラーを出力し、異常終了する不具合が発生しておりました。
物性研スーパコンピュータシステム共同利用
平成28年度研究代表者・共同研究者各位
物性研システムBにおいて、MPI並列ジョブが以下のようなエラーを出力し、異常終了する不具合が発生しておりました。
MPT ERROR: (ホスト名) has had continuous IB fabric problems for 600
(MPI_WATCHDOG_TIMER) minutes trying to reach (ホスト名). If your
application spends long periods of time between MPI or SHMEM calls
you should consider increasing this timeout. Aborting.
この不具合は確率的に発生し、同じジョブを再度実行しても問題なく実行できる場合もあります。その後の調査により、SGIのMPIライブラリであるMPTの不具合が原因と判明いたしましたので、稼働当初より存在していた不具合と思われます。
5月度定期保守(5/13)にて、修正されたバージョンであるMPT2.13がデフォルトでロードされるようになり、本不具合は解消したものと思われます。
これまでに本不具合が原因でジョブが失敗したと思われる場合は、お手数ですがジョブIDをお知らせ下さい。ポイント返還等の措置を検討いたします。
ご不便をおかけして大変申し訳ありません。
以上、よろしくお願いいたします。
—-
物性研究所電子計算機室
center__at__issp.u-tokyo.ac.jp (__at__を@にして下さい。)