以下是您需要翻译的内容:
对于像MXCSR这样的东西,最佳设置是什么?哪种舍入模式最快?适用于哪些处理器?启用信号NaN是否更快,以便在计算结果为NaN时通知我,还是会导致非NaN计算速度变慢?
总之,如何使紧密内部SSE循环的速度最大化?
任何相关的x87浮点数速度建议也欢迎。
使用Flush-to-zero和Denormals-are-zero模式:它们旨在提高速度,但会牺牲一定的精度,不过您可能不会注意到。
我怀疑不同的舍入模式有不同的成本。按最接近舍入理论上是最难的,但在硬件实现中,我猜想为了进行相同数量的循环所需的额外晶体管可能已经存在,并且仅在有向舍入时未被使用。
发信号的NaN不会减慢非NaN计算。
只在您的计算之前设置控制标志字:在计算期间更改它将使您实现的任何节省变得微不足道。