<div dir="ltr">Hi Adam,<br><br>I would like to clarify the issues I mentioned previously regarding the DiFX software, as there have been some updates in my observations.<br><br>Initially, I was able to run the command "vex2difx wude.v2d" in DiFX, and it worked perfectly. However, when I attempted to run the "calcif2 wude_1.calc" command, I encountered the following error:<br><br>calcif2 processing file 1/1 = wude_1<br>localhost: RPC: Program not registered<br>Error: calcif2: RPC clnt_create fails for host: localhost<br>Error: Cannot initialize CalcParams<br><br>Subsequently, I ran the "startdifx -f -n wude.joblist" command, and the output showed:<br><br>Environment variable DIFX_CALC_PROGRAM was set, so<br>Using specified calc program: difxcalc<div><br>No errors with input file /home/wude/difx/test_data/rdv70/wude_1.input<br><br>----------------------------------------------------------------------------<br>while computing bindings, we found no available CPUs on the following node:<br>       Node:  wude<br>Please check your allocation.<br>----------------------------------------------------------------------------<br><br>Upon executing this command, I obtained the "wude_1.difxlog" and "<a href="http://wude_1.im">wude_1.im</a>" files. Then, when I tried to rerun "calcif2 wude_1.calc," it displayed the message:<br><br>calcif2 processing file 1/1 = wude_1<br>Skipping wude_1 due to file ages.<br><br>I am unsure if everything up to this point is normal or if there are any underlying issues. Subsequently, I proceeded to run the command "mpirun -np 8 -machinefile wude_1.machines mpifxcorr wude_1.input," and I was able to obtain the ".difx" files successfully.<br><br>Could you kindly review the above steps and error messages to help me understand if there are any concerns or if the process is running as expected? I greatly appreciate your expertise and guidance in resolving these matters.<br><br>Thank you for your time and support.<br><br>Best regards,<br><br></div><div>De Wu</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Adam Deller <<a href="mailto:adeller@astro.swin.edu.au">adeller@astro.swin.edu.au</a>> 于2023年6月26日周一 07:36写道:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Have you tried removing the --mca options from the command? E.g., <div><br></div><div>mpirun -np 4 --hostfile /vlbi/aov070/aov070_1.machines runmpifxcorr.DiFX-2.6.2 /vlbi/aov070/aov070_1.input<br></div><div><br></div><div>I have a suspicion that either the seq or rmaps option is not playing nice, but it is easiest to just remove all the options and see if that makes any difference.</div><div><br></div><div>Cheers,</div><div>Adam</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, 26 Jun 2023 at 01:58, 深空探测 <<a href="mailto:wude7826580@gmail.com" target="_blank">wude7826580@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi Adam,<br><br>As you suggested, I removed the "| head" from the command, and I was able to run it successfully.<br><br>However, when executing the following command: "mpirun -np 4 --hostfile /vlbi/aov070/aov070_1.machines --mca mpi_yield_when_idle 1 --mca rmaps seq runmpifxcorr.DiFX-2.6.2 /vlbi/aov070/aov070_1.input". The output displayed the following message:<br><br>--------------------------------------------------------------------------<br>mpirun noticed that the job aborted, but has no info as to the process<br>that caused that situation.<br>--------------------------------------------------------------------------<br><br>Additionally, when running the command "mpirun -np 4 -H localhost,localhost,localhost,localhost --mca mpi_yield_when_idle 1 --mca rmaps seq runmpifxcorr.DiFX-2.6.2 /vlbi/aov070/aov070_1.input," and it resulted in the following error message:<br><br>--------------------------------------------------------------------------<br>There are no nodes allocated to this job.<br>--------------------------------------------------------------------------<br><br>It is quite puzzling that even when specifying only one localhost in the command, I still receive this output. I have been considering the possibility that this issue might be due to limitations in system resources, node access permissions, or node configuration within the CentOS7 virtual machine environment.<br><br>Thank you for your attention to this matter.<br><br>Best regards,<br><br><div>De Wu</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Adam Deller <<a href="mailto:adeller@astro.swin.edu.au" target="_blank">adeller@astro.swin.edu.au</a>> 于2023年6月22日周四 15:53写道:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi De Wu,<div><br></div><div>The "SIGPIPE detected on fd 13 - aborting" errors when running mpispeed are related to piping the output to head.  Remove the "| head" and you should see it run normally.</div><div><br></div><div>For running mpifxcorr, the obvious difference between your invocation of mpispeed and mpifxcorr is the use of the various mca options.  What happens if you add " --mca mpi_yield_when_idle 1 --mca rmaps seq" to your mpispeed launch (before or after the -H localhost,localhost)?  If it doesn't work, then probably one or the other of those options is the problem, and you need to change startdifx to get rid of the offending option when running mpirun.</div><div><br></div><div>If running mpispeed still works when with those options, what about the following:</div><div>1. manually run mpirun -np 4 --hostfile /vlbi/aov070/aov070_1.machines --mca mpi_yield_when_idle 1 --mca rmaps seq  runmpifxcorr.DiFX-2.6.2 /vlbi/aov070/aov070_1.input, see what output comes out</div><div>2. manually run mpirun -np 4 -H localhost,localhost,localhost,localhost --mca mpi_yield_when_idle 1 --mca rmaps seq  runmpifxcorr.DiFX-2.6.2 /vlbi/aov070/aov070_1.input, see what output comes out</div><div><br></div><div>Cheers,</div><div>Adam</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, 19 Jun 2023 at 18:02, 深空探测 via Difx-users <<a href="mailto:difx-users@listmgr.nrao.edu" target="_blank">difx-users@listmgr.nrao.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hello,<div><br>I recently reinstalled OpenMPI-1.6.5 and successfully ran the example program provided within the OpenMPI package. By executing the command "mpiexec -n 6 ./hello_c," I obtained the following output:<br><br>```<br>wude@wude DiFX-2.6.2 examples> mpiexec -n 6 ./hello_c<br>Hello, world, I am 4 of 6<br>Hello, world, I am 2 of 6<br>Hello, world, I am 0 of 6<br>Hello, world, I am 1 of 6<br>Hello, world, I am 3 of 6<br>Hello, world, I am 5 of 6<br>```<br><br>The program executed without any issues, displaying the expected output. Each line represents a separate process, showing the process number and the total number of processes involved.<br><br>However, I encountered some difficulties when running the command "mpirun -H localhost,localhost mpispeed 1000 10s 1 | head." Although both nodes seem to run properly, there appear to be some errors in the output. Below is the output I received, with "wude" being my username:<br><br>```<br>wude@wude DiFX-2.6.2 ~> mpirun -H localhost,localhost mpispeed 1000 10s 1 | head<br>Processor = wude<br>Rank = 0/2<br>[0] Starting<br>Processor = wude<br>Rank = 1/2<br>[1] Starting<br>[1] Recvd 0 -> 0 : 2740.66 Mbps curr : 2740.66 Mbps mean<br>[1] Recvd 1 -> 0 : 60830.52 Mbps curr : 5245.02 Mbps mean<br>[1] Recvd 2 -> 0 : 69260.57 Mbps curr : 7580.50 Mbps mean<br>[1] Recvd 3 -> 0 : 68545.44 Mbps curr : 9747.65 Mbps mean<br>[wude:05649] mpirun: SIGPIPE detected on fd 13 - aborting<br>mpirun: killing job...<br><br>[wude:05649] mpirun: SIGPIPE detected on fd 13 - aborting<br>mpirun: killing job...<br>```<br><br>I'm unsure whether you experience the same "mpirun: SIGPIPE detected on fd 13 - aborting mpirun: killing job..." message when running this command on your computer.<br><br>Furthermore, when I ran the command "startdifx -v -f -n aov070.joblist," the .difx file was not generated. Could you please provide some guidance or suggestions to help me troubleshoot this issue?<br><br>Here is the output I received when running the command:<br><br>```<br>wude@wude DiFX-2.6.2 aov070> startdifx -v -f -n aov070.joblist<br>No errors with input file /vlbi/aov070/aov070_1.input<br><br>Executing:  mpirun -np 4 --hostfile /vlbi/aov070/aov070_1.machines --mca mpi_yield_when_idle 1 --mca rmaps seq  runmpifxcorr.DiFX-2.6.2 /vlbi/aov070/aov070_1.input<br>--------------------------------------------------------------------------<br>mpirun noticed that the job aborted, but has no info as to the process<br>that caused that situation.<br>--------------------------------------------------------------------------<br>Elapsed time (s) = 82.2610619068<br>```<br><div>Best regards,<br><br></div><div>De Wu</div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Adam Deller <<a href="mailto:adeller@astro.swin.edu.au" target="_blank">adeller@astro.swin.edu.au</a>> 于2023年5月25日周四 08:42写道:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi De Wu,<div><br></div><div>If I run </div><div><br></div><div>mpirun -H localhost,localhost mpispeed 1000 10s 1</div><div><br></div><div>it runs correctly as follows:</div><div><br></div><div>adeller@ar313-adeller trunk Downloads> mpirun -H localhost,localhost mpispeed 1000 10s 1 | head<br>Processor = <my host name><br>Rank = 0/2<br>[0] Starting<br>Processor =<my host name><br>Rank = 1/2<br>[1] Starting<br></div><div><br></div><div>It seems like in your case, MPI is looking at the two identical host names you've given and is deciding to only start one process, rather than two. What if you run </div><div><br></div><div>mpirun -n 2 -H wude,wude mpispeed 1000 10s 1</div><div><br></div><div>?</div><div><br></div><div>I think the issue is with your MPI installation / the parameters being passed to mpirun. Unfortunately as I've mentioned previously the behaviour of MPI with default parameters seems to change from implementation to implementation and version to version - you just need to track down what is needed to make sure it actually runs the number of processes you want on the nodes you want!</div><div><br></div><div>Cheers,<br>Adam</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, 24 May 2023 at 18:30, 深空探测 via Difx-users <<a href="mailto:difx-users@listmgr.nrao.edu" target="_blank">difx-users@listmgr.nrao.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Hi  All,<div><br></div><div>I am writing to seek assistance regarding an issue I encountered while working with MPI on a CentOS 7 virtual machine.<br></div><div><br>I have successfully installed openmpi-1.6.5 on the CentOS 7 virtual machine. However, when I attempted to execute the command "startdifx -f -n -v aov070.joblist," I received the following error message:<br><br>"Environment variable DIFX_CALC_PROGRAM was set, so<br>Using specified calc program: difxcalc<br><br>No errors with input file /vlbi/corr/aov070/aov070_1.input<br><br>Executing: mpirun -np 4 --hostfile /vlbi/corr/aov070/aov070_1.machines --mca mpi_yield_when_idle 1 --mca rmaps seq runmpifxcorr.DiFX-2.6.2 /vlbi/corr/aov070/aov070_1.input<br>--------------------------------------------------------------------------<br>mpirun noticed that the job aborted, but has no info as to the process that caused that situation.<br>--------------------------------------------------------------------------"<br><br>To further investigate the MPI functionality, I wrote a Python program “mpi_hello_world.py” as follows:</div><div><br>from mpi4py import MPI<br><br>comm = MPI.COMM_WORLD<br>rank = comm.Get_rank()<br>size = comm.Get_size()<br><br>print("Hello from rank", rank, "of", size)<br><br>When I executed the command "mpiexec -n 4 python mpi_hello_world.py," the output was as follows:<br><br>('Hello from rank', 0, 'of', 1)<br>('Hello from rank', 0, 'of', 1)<br>('Hello from rank', 0, 'of', 1)<br>('Hello from rank', 0, 'of', 1)<br><br>Additionally, I attempted to test the MPI functionality using the "mpispeed" command with the following execution command: "mpirun -H wude,wude mpispeed 1000 10s 1".  “wude” is my hostname. However, I encountered the following error message:<br><br>"Processor = wude<br>Rank = 0/1<br>Sorry, must run with an even number of processes<br>This program should be invoked in a manner similar to:<br>mpirun -H host1,host2,...,hostN mpispeed [<numSends>|<timeSend>s] [<sendSizeMByte>]<br>    where<br>        numSends: number of blocks to send (e.g., 256), or<br>        timeSend: duration in seconds to send (e.g., 100s)<br>--------------------------------------------------------------------------<br>mpirun noticed that the job aborted, but has no info as to the process that caused that situation.<br>--------------------------------------------------------------------------"<br><br>I am uncertain about the source of these issues and would greatly appreciate your guidance in resolving them. If you have any insights or suggestions regarding the aforementioned errors and how I can rectify them, please let me know.<br><br>Thank you for your time and assistance. <br><br>Best regards,<br><br></div><div>De Wu</div></div>
_______________________________________________<br>
Difx-users mailing list<br>
<a href="mailto:Difx-users@listmgr.nrao.edu" target="_blank">Difx-users@listmgr.nrao.edu</a><br>
<a href="https://listmgr.nrao.edu/mailman/listinfo/difx-users" rel="noreferrer" target="_blank">https://listmgr.nrao.edu/mailman/listinfo/difx-users</a><br>
</blockquote></div><br clear="all"><div><br></div><span class="gmail_signature_prefix">-- </span><br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px">!=============================================================!<br><div dir="ltr" style="font-size:12.8px">Prof. Adam Deller         </div></div><div style="font-size:12.8px">Centre for Astrophysics & Supercomputing </div><div dir="ltr" style="font-size:12.8px">Swinburne University of Technology    <br>John St, Hawthorn VIC 3122 Australia</div><div style="font-size:12.8px">phone: +61 3 9214 5307</div><div style="font-size:12.8px">fax: +61 3 9214 8797</div><div style="font-size:12.8px">!=============================================================!</div></div></div></div></div></div></div></div></div></div></div></div></div></div></div>
</blockquote></div>
_______________________________________________<br>
Difx-users mailing list<br>
<a href="mailto:Difx-users@listmgr.nrao.edu" target="_blank">Difx-users@listmgr.nrao.edu</a><br>
<a href="https://listmgr.nrao.edu/mailman/listinfo/difx-users" rel="noreferrer" target="_blank">https://listmgr.nrao.edu/mailman/listinfo/difx-users</a><br>
</blockquote></div><br clear="all"><div><br></div><span class="gmail_signature_prefix">-- </span><br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px">!=============================================================!<br><div dir="ltr" style="font-size:12.8px">Prof. Adam Deller         </div></div><div style="font-size:12.8px">Centre for Astrophysics & Supercomputing </div><div dir="ltr" style="font-size:12.8px">Swinburne University of Technology    <br>John St, Hawthorn VIC 3122 Australia</div><div style="font-size:12.8px">phone: +61 3 9214 5307</div><div style="font-size:12.8px">fax: +61 3 9214 8797</div><div style="font-size:12.8px">!=============================================================!</div></div></div></div></div></div></div></div></div></div></div></div></div></div></div>
</blockquote></div></div>
</blockquote></div><br clear="all"><div><br></div><span class="gmail_signature_prefix">-- </span><br><div dir="ltr" class="gmail_signature"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px"><div dir="ltr" style="font-size:12.8px">!=============================================================!<br><div dir="ltr" style="font-size:12.8px">Prof. Adam Deller         </div></div><div style="font-size:12.8px">Centre for Astrophysics & Supercomputing </div><div dir="ltr" style="font-size:12.8px">Swinburne University of Technology    <br>John St, Hawthorn VIC 3122 Australia</div><div style="font-size:12.8px">phone: +61 3 9214 5307</div><div style="font-size:12.8px">fax: +61 3 9214 8797</div><div style="font-size:12.8px">!=============================================================!</div></div></div></div></div></div></div></div></div></div></div></div></div></div></div>
</blockquote></div>