FAQ

Q2.11. Intel oneAPI Compiler + Intel oneAPI MPI組み合わせで、2023/04以前は正常動作していたプログラムが、以下のような例で正常に動作しない。

 

1) 以下のエラーメッセージが出力される。

mm_xpmem.c:136  UCX ERROR   failed to attach xpmem apid 0x500002a674 offset 0x14d95ec12000 length 348160: Cannot allocate memory

ucp_rkey.c:476  UCX ERROR   failed to unpack remote key from remote md[6]: Input/output error

 

2)エラーメッセージが出力されずタイムアウトして終了する。

A2.11.

2023/04に実施したインテルコンパイラのバージョンアップにおける

Intel oneAPI MPIのノード内通信で用いる共有メモリ機構変更に伴う影響が原因であると考えられるため、

ジョブスクリプト内のプログラム実行前に以下の共有メモリ機構を変更する環境変数にてpsm3を指定し状況が改善するか確認してください。

  環境変数)

   export FI_PROVIDER=psm3