Q2.11. Intel oneAPI Compiler + Intel oneAPI MPIの組み合わせで、2023/04以前は正常動作していたプログラムが、以下のような例で正常に動作しない。
1) 以下のエラーメッセージが出力される。
mm_xpmem.c:136 UCX ERROR failed to attach xpmem apid 0x500002a674 offset 0x14d95ec12000 length 348160: Cannot allocate memory
ucp_rkey.c:476 UCX ERROR failed to unpack remote key from remote md[6]: Input/output error
2)エラーメッセージが出力されずタイムアウトして終了する。
A2.11.
2023/04に実施したインテルコンパイラのバージョンアップにおける
Intel oneAPI MPIのノード内通信で用いる共有メモリ機構変更に伴う影響が原因であると考えられるため、
ジョブスクリプト内のプログラム実行前に以下の共有メモリ機構を変更する環境変数にてpsm3を指定し状況が改善するか確認してください。
環境変数)
export FI_PROVIDER=psm3