论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2008-08-15 10:30 |只看该作者 |倒序浏览

strlen_chk.c计算sum1与sum2的目标相同，但是效率是不一样；参考汇编代码strlen_chk.s ，计算sum2时，strlen函数每次循环都被调用。
编译器对于循环优化--不变量外提；一般的表达式都能够进行归纳优化，但对函数一般无法进行优化；写程序时最好进行人工优化。

strlen_chk.c：

#include <stdio.h>
#include <string.h>
int main(int argc, char **argv)
{
char buf[1024];
int len = 0;
int sum1 = 0, sum2 = 0;
int i = 0;
len = strlen( buf );
for( i = 0; i < len; i++ )
sum1 += i;
for( i = 0; i < strlen(buf); i++ )
sum2 += i;
return sum1 + sum2;
}

复制代码

编译 cc -S -O3 strlen_chk.c
strlen_chk.s

.file "strlen_chk.c"
.text
.p2align 4,,15
.globl main
.type main, @function
main:
.LFB24:
subq $912, %rsp
.LCFI0:
xorl %r11d, %r11d
xorl %r10d, %r10d
leaq -120(%rsp), %r9
movq %r9, %rsi
---------------------------------------
*** .L2 计算 len = strlen( buf ); store in eax;
*** .L25 .L23 计算 for( i = 0; i < len; i++ ) sum1 += i;
.L2:
movl (%rsi), %eax
addq $4, %rsi
leal -16843009(%rax), %edx
notl %eax
andl %eax, %edx
movl %edx, %ecx
andl $-2139062144, %ecx
je .L2
movl %ecx, %r8d
leaq 2(%rsi), %rdi
shrl $16, %r8d
andl $32896, %edx
cmove %r8d, %ecx
cmove %rdi, %rsi
movl %ecx, %edx
addb %cl, %dl
sbbq $3, %rsi
xorl %edx, %edx
movl %esi, %eax
subl %r9d, %eax
jmp .L23
.L25:
addl %edx, %r11d
incl %edx
.L23:
cmpl %eax, %edx
jl .L25
xorl %edi, %edi
.p2align 4,,7
-------------------------------------------
-------------------------------------------
*** .L8 .L11 计算 for( i = 0; i < strlen(buf); i++ ) sum2 += i;
*** 在.L11中，每次循环 strlen(buf)都被调用;
*** 对于循环优化--不变量外提，gcc -O3无法归纳strlen函数为不变量。
.L8:
movslq %edi,%r8
movq %r9, %rsi
.p2align 4,,7
.L11:
movl (%rsi), %ecx
addq $4, %rsi
leal -16843009(%rcx), %edx
notl %ecx
andl %ecx, %edx
movl %edx, %ecx
andl $-2139062144, %ecx
je .L11
movl %ecx, %eax
shrl $16, %eax
andl $32896, %edx
leaq 2(%rsi), %rdx
cmove %eax, %ecx
movl %ecx, %eax
cmove %rdx, %rsi
addb %cl, %al
sbbq $3, %rsi
subq %r9, %rsi
cmpq %rsi, %r8
jae .L26
addl %edi, %r10d
incl %edi
jmp .L8
---------------------------------------
.L26:
leal (%r11,%r10), %eax
addq $912, %rsp
ret
.LFE24:
.size main, .-main
.section .eh_frame,"a",@progbits
.Lframe1:
.long .LECIE1-.LSCIE1
.LSCIE1:
.long 0x0
.byte 0x1
.string ""
.uleb128 0x1
.sleb128 -8
.byte 0x10
.byte 0xc
.uleb128 0x7
.uleb128 0x8
.byte 0x90
.uleb128 0x1
.align 8
.LECIE1:
.LSFDE1:
.long .LEFDE1-.LASFDE1
.LASFDE1:
.long .LASFDE1-.Lframe1
.quad .LFB24
.quad .LFE24-.LFB24
.byte 0x4
.long .LCFI0-.LFB24
.byte 0xe
.uleb128 0x398
.align 8
.LEFDE1:
.section .note.GNU-stack,"",@progbits
.ident "GCC: (GNU) 3.4.6 20060404 (Red Hat 3.4.6-3)"

复制代码

文库|博客

5毛党党员

大富大贵

论坛徽章:: 0

2楼 [报告]

发表于 2008-08-15 10:48 |只看该作者

这个标题很容易让人产生误解啊

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

converse

荣誉版主

论坛徽章:: 0

3楼 [报告]

发表于 2008-08-15 11:37 |只看该作者

好的编译器会帮你做这个优化的.LZ试试用O2级别去编译程序再看看汇编码.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

freearth

家境小康

论坛徽章:: 0

4楼 [报告]

发表于 2008-08-15 16:53 |只看该作者

绝大多数编译器都不能做这个优化。
如果想要做这个不变量外提，必须让编译器判断出每次调用函数strlen(buf)都会返回相同的值。如果没有strlen函数的内部信息（一般情况下，系统只有strlen的二进制版本，没有源码），编译器不能判断。所以，为了正确性，绝对不能做这个优化。
即便有strlen的内部信息，也需要非常好的别名分析和过程间分析，保证两点：
1、对于strlen，参数不变，返回值不变；
2、sum2和buf没有关系；

在一般意义上，这两个问题都是不可判定的。

原帖由 converse 于 2008-8-15 11:37 发表
好的编译器会帮你做这个优化的.LZ试试用O2级别去编译程序再看看汇编码.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

xi2008wang

小富即安

论坛徽章:: 0

5楼 [报告]

发表于 2008-08-15 18:04 |只看该作者

空间换时间
使用len = strlen(buf);多用了一个变量

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

虑而后能得

小富即安

论坛徽章:: 0

6楼 [报告]

发表于 2008-08-15 21:49 |只看该作者

编译器会自动进行这种优化的

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

qliu00

稍有积蓄

论坛徽章:: 0

7楼 [报告]

发表于 2008-08-15 21:50 |只看该作者

原帖由 freearth 于 2008-8-15 16:53 发表
绝大多数编译器都不能做这个优化。
如果想要做这个不变量外提，必须让编译器判断出每次调用函数strlen(buf)都会返回相同的值。如果没有strlen函数的内部信息（一般情况下，系统只有strlen的二进制版本，没有源 ...

绝大多数编译器都不能做这个优化,最好是自己优化

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

blizzard213

小富即安

论坛徽章:: 0

8楼 [报告]

发表于 2008-08-15 21:55 |只看该作者

原帖由 yunlong9981 于 2008-8-15 10:30 发表
strlen_chk.c计算sum1与sum2的目标相同，但是效率是不一样；参考汇编代码strlen_chk.s ，计算sum2时，strlen函数每次循环都被调用。
编译器对于循环优化--不变量外提；一般的表达式都能够进行归纳优化，但对 ...

优化和编程风格有时候有些矛盾
需要取舍