论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2008-10-22 16:55 |只看该作者 |倒序浏览

测试浮点数的加法，用下面两个小程序
>cat t.c 这个程序没有优化
int main(void){
double a=0.1f,sum=0.0f;
int i;
for(i=0;i<1024000000;++i){
sum+=a;
}
}
>gcc t.c
>time a.out
real 0m1.363s
user 0m1.152s
sys 0m0.032s
--------------------------------
然后一个优化的版本
>cat t2.c
int main(void){
double a=0.1f,sum,sum1,sum2,sum3,sum4;
sum=sum1=sum2=sum3=sum4=0.0f;
int i;
for(i=0;i<250000000;i++){
sum1+=a;
sum2+=a;
sum3+=a;
sum4+=a;
}
sum+=sum1;
sum+=sum2;
sum+=sum3;
sum+=sum4;
}
>gcc t2.c -o a.out.fast
>time ./a.out.fast
real 0m0.273s
user 0m0.0216s
sys 0m0.016s
--------------------------------
这个数字让我很惊讶，我原本认为用4路标量优化这个浮点加法，性能的提高应该是<4的才对，而现在确>4
看起来t.c里面1024M次比较，自增和加法。t2.c里面256M次比较和自增，1024M次加法，速度提高不应该超过4倍的。只运行一条指令，浮点加法运算比自增和比较耗时更多吧?

好像这个优化方法有点无敌了，但是自己又无法解释。
想听听各位大虾的高见，我这里抛砖引玉了！

[ 本帖最后由 jeanlove 于 2008-10-23 10:27 编辑 ]

文库|博客

jeanlove

白手起家

论坛徽章:: 0

2楼 [报告]

发表于 2008-10-22 18:00 |只看该作者

能解释一下上面这个现象么?
谢谢

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

reiase

富足长乐

论坛徽章:: 0

3楼 [报告]

发表于 2008-10-22 20:13 |只看该作者

贴汇编代码出来吧
gcc -S 生成汇编代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

system888net

腰缠万贯

论坛徽章:: 0

4楼 [报告]

发表于 2008-10-23 00:04 |只看该作者

1. 要注意说明测试的CPU
2. 浮点的运算是在FPU里进行的,而循环的代码是在CPU里运行的,进行的是整型的运算.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

Godbach

版主

论坛徽章:: 36

5楼 [报告]

发表于 2008-10-23 09:13 |只看该作者

测程序运行时间，用gprof可能效果更好

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ssafa

小富即安

论坛徽章:: 0

6楼 [报告]

发表于 2008-10-23 09:43 |只看该作者

硬件可能对浮点运算进行优化了

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jeanlove

白手起家

论坛徽章:: 0

7楼 [报告]

发表于 2008-10-23 10:08 |只看该作者

按照楼上dx说的，电脑的配置和汇编的结果都贴出来了。以前学汇编的时候没关注过浮点运算，还请指点。
-------------------------------------
computer: Dell D520 笔记本
cpu       : Intel core2duo 1.66G
mem    : 1G 667MHz
-------------------------------------
>cat t.s
      .file "t.c"
      .section       .rodata
      .align 8
.LC0:
      .long -1610612736
      .long 1069128089
      .text
.globl main
      .type main, @function
main:
      leal 4(%esp), %ecx
      andl $-16, %esp
      pushl -4(%ecx)
      pushl %ebp
      movl %esp, %ebp
      pushl %ecx
      subl $36, %esp
      fldl .LC0
      fstpl -32(%ebp)
      fldz
      fstpl -24(%ebp)
      movl $0, -12(%ebp)
      jmp    .L2
.L3:
      fldl -24(%ebp)
      faddl -32(%ebp)
      fstpl -24(%ebp)
      incl -12(%ebp)
.L2:
      cmpl $1023999999, -12(%ebp)
      jle    .L3
      addl $36, %esp
      popl %ecx
      popl %ebp
      leal -4(%ecx), %esp
      ret
      .size main, .-main
      .ident  "GCC: (GNU) 4.1.2 20061115 (prerelease) (Debian 4.1.1-21)"       .section       .note.GNU-stack,"",@progbits
------------------------------
>cat t2.s
      .file "t2.c"
      .section       .rodata
      .align 8
.LC0:
      .long -1610612736
      .long 1069128089
      .text
.globl main
      .type main, @function
main:
      leal 4(%esp), %ecx
      andl $-16, %esp
      pushl -4(%ecx)
      pushl %ebp
      movl %esp, %ebp
      pushl %ecx
      subl $52, %esp
      fldl .LC0
      fstpl -56(%ebp)
      fldz
      fstpl -24(%ebp)
      fldl -24(%ebp)
      fstpl -32(%ebp)
      fldl -32(%ebp)
      fstpl -40(%ebp)
      fldl -40(%ebp)
      fstpl -48(%ebp)
      movl $0, -12(%ebp)
      jmp    .L2
.L3:
      fldl -48(%ebp)
      faddl -56(%ebp)
      fstpl -48(%ebp)
      incl -12(%ebp)
.L2:
      cmpl $255999999, -12(%ebp)
      jle    .L3
      fldl -40(%ebp)
      faddl -56(%ebp)
      fstpl -40(%ebp)
      fldl -32(%ebp)
      faddl -56(%ebp)
      fstpl -32(%ebp)
      fldl -24(%ebp)
      faddl -56(%ebp)
      fstpl -24(%ebp)
      addl $52, %esp
      popl %ecx
      popl %ebp
      leal -4(%ecx), %esp
      ret
      .size main, .-main
      .ident  "GCC: (GNU) 4.1.2 20061115 (prerelease) (Debian 4.1.1-21)"       .section       .note.GNU-stack,"",@progbits

[ 本帖最后由 jeanlove 于 2008-10-23 10:21 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

jeanlove

白手起家

论坛徽章:: 0

8楼 [报告]

发表于 2008-10-23 10:25 |只看该作者

从汇编的结果来看，我的for循环里面的内容虽然不一样，但是.L3得到的内容却是一样的
for(i=0;i<1024000000;++i){
sum+=a;
}
和
for(i=0;i<250000000;i++){
sum1+=a;
sum2+=a;
sum3+=a;
sum4+=a;
}
似乎都是对应着.L3的一次浮点运算
.L3:
      fldl -24(%ebp)
      faddl -32(%ebp)
      fstpl -24(%ebp)
      incl -12(%ebp)
和
.L3:
      fldl -48(%ebp)
      faddl -56(%ebp)
      fstpl -48(%ebp)
      incl -12(%ebp)
奇怪了，难道第二个for里面的4次浮点加法，其实只做了一个? 没道理啊