障害情報
2017/05/26
ファイルシステム不具合への対処について
物性研スーパーコンピュータシステム共同利用
平成29年度研究代表者・共同研究者各位
平素より物性研スーパコンピュータシステムをご利用いただきありがとうございます。
物性研スパコンシステムBでは稼働当初より、高並列ジョブが大きなファイルを一度に
出力するとジョブが異常終了することがある不具合がありました。本不具合について
調査しておりましたが、ファイルシステムにある程度以上の負荷がかかると
ファイルサーバとクライアント間の通信にタイムラグが生じ、タイムアウト
することが原因であることがわかりました。また、これはシステムの根幹に
関わる問題であり、根本的な解決が難しいこともわかりました。
そこで、システムの調整により、本不具合を回避することにいたしました。
具体的にはファイルシステムに対する通信量の最大値を減らすことで負荷を下げ、
本不具合によるジョブの異常終了がほぼ起きないようにいたします。
この調整は 5月17日 14:30 より適用されております。
これにより、ジョブの異常終了はほぼ起きなくなったと考えておりますが、
並列ジョブからのファイル書き込みの速度がこれまでより最大で20%程度、
シングルプロセスからのファイル書き込みが最大で10%程度低下する
可能性があります。
ご不便をおかけして大変申し訳ありません。
以上、よろしくお願いいたします。