<div dir="ltr">The Context:<div><br></div><div>We are trying to distribute correlation over several nodes around the various AUT campuses using our 10G fibre circuits and the Auckland City 100G fibre ring.</div><div><br></div><div>Some of the switches "we" control, some we do not like where it touches REANNZ. My understanding is that multicast is not configured through REANNZ (the research commodity internet).</div><div><br></div><div>Thanks for the responses. I'll look into them more.</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Aug 31, 2016 at 3:30 PM,  <span dir="ltr"><<a href="mailto:Chris.Phillips@csiro.au" target="_blank">Chris.Phillips@csiro.au</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi<br>
<br>
Walter is spot on with this.  Multicast addresses are all in a single block, so if you specify a “real” IP address, DIFX detects that and just uses unicast. So just set DIFX_MESSAGE_GROUP to the IP of the machine where you want to receive messages.<br>
<br>
Cormac is the expert on this now, needing it for LBA correlation.<br>
<br>
There are a few caveats - the main one is if you run simultaneous jobs you need to use a different port for each job.<br>
<br>
This is needed when your switch does not support multicast.<br>
<br>
Stuart: Without giving *any* context to your message, it is hard to know what you are trying to achieve. Often multicast is available within a cluster but not externally - in most cases this is all you need.<br>
<br>
errormon2 should support unicast also. If others have written difxmessage receivers, some trivial code changes are needed to allow unicast.<br>
<br>
Cheers<br>
Chris<br>
<div class="HOEnZb"><div class="h5"><br>
<br>
<br>
> On 31 Aug 2016, at 12:50 PM, Walter Brisken <<a href="mailto:wbrisken@nrao.edu">wbrisken@nrao.edu</a>> wrote:<br>
><br>
><br>
> I believe if you set DIFX_MESSAGE_GROUP to the IP address of a single recipient machine and the DIFX_MESSAGE_PORT to something that machine can listen on, that one machine will be able to see all of the DIFX messages. This probably is not what you want in practice as there is reason for multiple different machines to receive messages, but it still might buy you a bit of ground.<br>
><br>
> I think Richard Dodson and/or Cormac Reynolds are the pioneers in using this, by necessity, when porting to some novel architecture.  Maybe one of them knows more about the actual performance of DiFX in such situations.<br>
><br>
> If so, perhaps a wiki page describing the reasons and consequences of this usage would be a good resource for the future!<br>
><br>
>       -Walter<br>
><br>
><br>
> On Wed, 31 Aug 2016, Stuart Weston wrote:<br>
><br>
>> It has just come to my attention:<br>
>><br>
>> I notice you are using a multicast group DIFX_MESSAGE_GROUP=239.253.<wbr>253.90<br>
>> are use able to unicast instead. We havenÿÿt enabled multicasting out to<br>
>> REANNZ.<br>
>><br>
>><br>
>><br>
>> Can I use unicast ?<br>
>><br>
>> On Wed, Aug 31, 2016 at 1:45 PM, Stuart Weston <<a href="mailto:nzobservers@gmail.com">nzobservers@gmail.com</a>><br>
>> wrote:<br>
>><br>
>>><br>
>>> Do IP addresses get added in when the code is compiled ?<br>
>>><br>
>>> oper@ww-flexbuf-01 DiFX-2.4.3 v534a> mpirun -machinefile v534a_9.machines<br>
>>> -np 12 mpifxcorr v534a_9.input<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node wark167<br>
>>> [ww-flexbuf-01][[12885,1],6][.<wbr>./../../../../../ompi/mca/btl/<br>
>>> tcp/btl_tcp_endpoint.c:638:<wbr>mca_btl_tcp_endpoint_complete_<wbr>connect]<br>
>>> connect() to 156.62.231.167 failed: No route to host (113)<br>
>>> [ww-flexbuf-01][[12885,1],5][.<wbr>./../../../../../ompi/mca/btl/<br>
>>> tcp/btl_tcp_endpoint.c:638:<wbr>mca_btl_tcp_endpoint_complete_<wbr>connect]<br>
>>> connect() to 156.62.231.167 failed: No route to host (113)<br>
>>> [ww-flexbuf-01][[12885,1],3][.<wbr>./../../../../../ompi/mca/btl/<br>
>>> tcp/btl_tcp_endpoint.c:638:<wbr>mca_btl_tcp_endpoint_complete_<wbr>connect]<br>
>>> connect() to 156.62.231.167 failed: No route to host (113)<br>
>>> [ww-flexbuf-01][[12885,1],11][<wbr>../../../../../../ompi/mca/<br>
>>> btl/tcp/btl_tcp_endpoint.c:<wbr>638:mca_btl_tcp_endpoint_<wbr>complete_connect]<br>
>>> connect() to 156.62.231.167 failed: No route to host (113)<br>
>>><br>
>>> The correct IP address should be 163.7.128.11 and not 156.62.231.167.<br>
>>><br>
>>> I have checked "/etc/hosts" on both servers. Also stop/start "rpcbind"<br>
>>> just in case. I have tried putting the IP addresses in the machines file<br>
>>> and not the host name. Still get the error ?<br>
>>><br>
>>> Tried with a very simple mpirun and thats good, ie:<br>
>>><br>
>>> oper@ww-flexbuf-01 DiFX-2.4.3 v534a> cat hosts<br>
>>> 163.7.128.194<br>
>>> 163.7.128.11<br>
>>><br>
>>> oper@ww-flexbuf-01 DiFX-2.4.3 v534a> mpirun -np 2 -hostfile hosts hostname<br>
>>> ww-flexbuf-01<br>
>>> wark167<br>
>>><br>
>>> Any ideas as to why it insists on picking up the wrong IP address ?<br>
>>><br>
>>> oper@ww-flexbuf-01 DiFX-2.4.3 v534a> cat v534a_9.machines<br>
>>> 163.7.128.194<br>
>>> 163.7.128.194<br>
>>> 163.7.128.194<br>
>>> 163.7.128.194<br>
>>> 163.7.128.194<br>
>>> 163.7.128.194<br>
>>> 163.7.128.194<br>
>>> 163.7.128.11<br>
>>> oper@ww-flexbuf-01 DiFX-2.4.3 v534a> mpirun -machinefile v534a_9.machines<br>
>>> -np 12 mpifxcorr v534a_9.input<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node ww-flexbuf-01<br>
>>> About to run MPIInit on node wark167<br>
>>> [ww-flexbuf-01][[3498,1],6][..<wbr>/../../../../../ompi/mca/btl/<br>
>>> tcp/btl_tcp_endpoint.c:638:<wbr>mca_btl_tcp_endpoint_complete_<wbr>connect]<br>
>>> connect() to 156.62.231.167 failed: No route to host (113)<br>
>>><br>
>>><br>
>>><br>
</div></div><div class="HOEnZb"><div class="h5">> ______________________________<wbr>_________________<br>
> Difx-users mailing list<br>
> <a href="mailto:Difx-users@listmgr.nrao.edu">Difx-users@listmgr.nrao.edu</a><br>
> <a href="https://listmgr.nrao.edu/mailman/listinfo/difx-users" rel="noreferrer" target="_blank">https://listmgr.nrao.edu/<wbr>mailman/listinfo/difx-users</a><br>
<br>
</div></div></blockquote></div><br></div>