ARM64浮点运算精度丢失问题

同样的代码，在ARM64和x86_64分别运行，发现部分计算结果从小数点后17位开始出现不同，双精度浮点运算结果有细微差异。

为了方便定位差异，我们编写一段简单浮点运算代码。

 #include <math.h>
#include <stdio.h>

int main()
{

    double dv[] = {-0.13942759833577333949961030157283, -0.046687081540714665817137785097657, -0.48496455527857718070805503884912, -0.60722091847450498924843032000354,
           1, 1, 0, 0, -3.4221570491790771484375};
    double dw[] = {0.019916933333333299710465880139054, -0.021317733333333300366208007403657, 0.13007783333333300390677322866395, 0.0013823433333333299752321288167423,
           0.11358973333333299837732965897885, 0.21664233333333299258427473432675, -0.078728843333333298204479433479719, 0.31518266666666699959975517231214,
           0.10316096666666700609749085515432 };
    double dp = 0.0;
    int i = 0;

    for(i=0; i<9; i++){
       dp += dv[i]*dw[i];
       printf("\n========================");
       printf("\ndv[%d]:%.32f ", i,dv[i]);
       printf("\ndw[%d]:%.32f ", i, dw[i]);
       printf("\ndp=dp+dv[%d]*dw[%d]:%.32f ", i,i,dp);
       printf("\n");
    }

    return 0;

}

打开-O3编译选项，代码编译后，在x86_64机器上运行结果为：

[root@localhost chen]# ./floating_precision

========================
dv[0]:-0.13942759833577333949961030157283
dw[0]:0.01991693333333329971046588013905
dp=dp+dv[0]*dw[0]:-0.00277697018088037071020801604959

========================
dv[1]:-0.04668708154071466581713778509766
dw[1]:-0.02131773333333330036620800740366
dp=dp+dv[1]*dw[1]:-0.00178170742648382784967253655850

========================
dv[2]:-0.48496455527857718070805503884912
dw[2]:0.13007783333333300390677322866395
dp=dp+dv[2]*dw[2]:-0.06486484602058455173345663524742

========================
dv[3]:-0.60722091847450498924843032000354
dw[3]:0.00138234333333332997523212881674
dp=dp+dv[3]*dw[3]:-0.06570423380909833077634374376430

========================
dv[4]:1.00000000000000000000000000000000
dw[4]:0.11358973333333299837732965897885
dp=dp+dv[4]*dw[4]:0.04788549952423466760098591521455

========================
dv[5]:1.00000000000000000000000000000000
dw[5]:0.21664233333333299258427473432675
dp=dp+dv[5]*dw[5]:0.26452783285756764630747284172685

========================
dv[6]:0.00000000000000000000000000000000
dw[6]:-0.07872884333333329820447943347972
dp=dp+dv[6]*dw[6]:0.26452783285756764630747284172685

========================
dv[7]:0.00000000000000000000000000000000
dw[7]:0.31518266666666699959975517231214
dp=dp+dv[7]*dw[7]:0.26452783285756764630747284172685

========================
dv[8]:-3.42215704917907714843750000000000
dw[8]:0.10316096666666700609749085515432
dp=dp+dv[8]*dw[8]:-0.08850519642089466065826286467200

[root@localhost chen]# gcc -o floating_precision_con -ffp-contract=on floating_precision.c
[root@localhost chen]# ./floating_precision_con