浮点数比较精度

Question

浮点数比较精度

c++cfloating-pointieee-754

5

如果给定 3 个 IEEE-754 浮点数 a、b、c，它们都不是 +/-INF 或 NaN，并且 a < b，则可以安全地假设 a - c < b - c 吗？或者，您能否提供一个此情况不正确的示例？

- user16367

强制链接：http://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html - Robᵩ

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ruakh · Accepted Answer

假设a约为0.00000000000000001，b约为0.00000000000000002，c等于1。那么a - c和b - c都将等于-1。（这是基于双精度，即64位值的假设。对于更高精度的值，您需要添加更多的零。）

编辑添加解释：

如果我们忽略非规范化值、非数字值、无穷大等，只关注IEEE 754双精度浮点数，以便有具体的东西来看，那么从二进制表示来看，浮点数由一个符号位s（正数为0，负数为1）、一个11位指数e（偏移量为1023，因此e=0表示2⁻¹⁰²³，e=1023表示2⁰，即1），和一个52位定点小数尾数m（代表二进制点后52个位置，因此它在[0,1)之间具有有限精度）。因此，该表示的实际值为(−1)^s × (1 + m) × 2^e−1023。

由于尾数是定点的，且具有固定的位数，因此精度非常有限。像1.00000000000000001和1.00000000000000002这样的值，在小数点后面有很多位是相同的，比双精度尾数能够保存的位数还要多。

当你在一个非常大的数字和一个非常小的数字之间执行加法或减法（相对于彼此而言：在我们的例子中，1是“非常大的”；或者，我们可以使用1作为非常小的值，并选择一个非常大的值10000000000000000），结果的指数将几乎完全由非常大的数字决定，并且非常小的数字的尾数必须相应地缩放。在我们的例子中，它被约除以10的17次方；因此它就消失了。尾数没有足够的位数来区分它。