<div dir="ltr"><div><div>"Since the Xeon Phi is bottlenecked on the instruction decoder it’s 
actually faster to load from memory than it is to load an immediate into
 a GPR, move this into a XMM register, and then broadcast it out"</div><br></div><div>oh - this is both hilarious, shocking, and depressing...</div><div><br></div><div><a href="https://godbolt.org/z/55Kax4j9f">https://godbolt.org/z/55Kax4j9f</a></div><div><br></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Jun 8, 2021 at 8:15 PM Jacob Lifshay <<a href="mailto:programmerjake@gmail.com">programmerjake@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="auto">Found this interesting article on using vectorization to run 4096 32-bit VMs on a 64-core Xeon Phi using AVX512:<div dir="auto"><a href="https://gamozolabs.github.io/fuzzing/2018/10/14/vectorized_emulation.html" target="_blank">https://gamozolabs.github.io/fuzzing/2018/10/14/vectorized_emulation.html</a><br></div><div dir="auto"><br></div><div dir="auto">This is more or less what GPUs do.</div><div dir="auto"><br></div><div dir="auto">Jacob</div></div>
_______________________________________________<br>
Libre-soc-misc mailing list<br>
<a href="mailto:Libre-soc-misc@libre-soc.org" target="_blank">Libre-soc-misc@libre-soc.org</a><br>
<a href="http://lists.libre-soc.org/mailman/listinfo/libre-soc-misc" rel="noreferrer" target="_blank">http://lists.libre-soc.org/mailman/listinfo/libre-soc-misc</a><br>
</blockquote></div>