【原创】超强版 Trim 横空出世！ [复制链接]

论坛徽章:: 0

21楼 [报告]

发表于 2004-03-02 20:39 |只看该作者

【原创】超强版 Trim 横空出世！

FH的代码和楼主的区别在于，用c=*str和*copied++=c来代替了*copied++=*str这一步，这实际上比起原来的代码反而多了一次赋值，而引用指针的次数却并不少。所以这段改过的代码效率不见得提高，反而降低了。
以前的帖子用到算法中有指针扫描到字符串结尾后又回溯的方式，这样对于最后一个非空字符后面的每个字符都做了一遍＋＋和--运算。而楼主的帖子是做了一遍＋＋和一遍赋值运算，效率应该都差不太多。
strlen和memmove我没研究过，不知效率如何，不敢妄言。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

FH

富足长乐

论坛徽章:: 0

22楼 [报告]

发表于 2004-03-02 22:04 |只看该作者

【原创】超强版 Trim 横空出世！

我说一下我的意见：

用c来代替*str，是因为从汇编的角度判断*str需要至少两条指令，而直接判c的指令数要少，正因为有两次的*str判断和两次的*str赋值，况且如果做的再完善些，判断还远不止两个，所以才值得用c来替换*str。不服气的人可以把两段代码都执行一百万次，比较一下时间。

考虑C程序的效率，不能以C语句的多少来判断，要从汇编和指令周期的角度考虑问题，这是我的一点看法。

串处理指令的效率远远高于C的循环语句，我在自己的代码里使用的就是strlen和memmove、memcpy，其中memcpy的效率要高于memmove，这在man里面都有说明。

strlen的代码用串指令很容易实现：
xor ecx, ecx
repnz testsb
neg ecx
就这么简单！至于memcpy，我就不多说了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

FH

富足长乐

论坛徽章:: 0

23楼 [报告]

发表于 2004-03-02 22:08 |只看该作者

【原创】超强版 Trim 横空出世！

要不先把两段代码编译出来，看看目标文件的长度？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

win_hate

荣誉版主

论坛徽章:: 0

24楼 [报告]

发表于 2004-03-02 22:13 |只看该作者

【原创】超强版 Trim 横空出世！

#include <stdio.h>;
#include <ctype.h>;
void str_trim ();
int
main ()
{
char buf[1024] = "ab cd ";
str_trim (buf);
puts (buf);
return 0;
}
void
str_trim (char *str)
{
char *save = str;
char *b;
if (str == NULL)
return;
if (isspace (*(b = str)))
{
while (*b)
{
if (isspace (*b))
b++;
else
break;
}
while (*b)
*str++ = *b++;
str--;
while (isspace (*str))
str--;
str[1] = '\0';
}
else
{
while (*b)
b++;
b--;
while (isspace (*b))
b--;
b[1] = '\0';
}
return;
}

复制代码

实现特点：
1、采用 ansi c 中的宏 isspace
2、处理了开始字节非"space" 的情况。
3、仍然采用"回溯"的方式。优点是只对开始的空白和最后的空白进行 isspace 判断。
4、后面有很多空格的时候，这个算法的效率仍值得推敲。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

win_hate

荣誉版主

论坛徽章:: 0

25楼 [报告]

发表于 2004-03-02 22:30 |只看该作者

【原创】超强版 Trim 横空出世！

BinBinNorth 与 FH 兄对 strlen 和 memcpy 的看法是有道理的。其实我很久以前就想做个测试，不过要么没时间，要么就太懒，x86 不同指令的效率，总是使我很头疼)。先这么写了。

至于 c = *str 的优化，我把希望寄托在编译器的优化上了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

FH

富足长乐

论坛徽章:: 0

26楼 [报告]

发表于 2004-03-02 22:44 |只看该作者

【原创】超强版 Trim 横空出世！

呵呵，刚测了一百万次，没什么差别，分别是18秒和19秒，一千万次差别还稍微大一点。
测试用代码如下，编译时使用了-O选项：

#include <string.h>;
#define STRSZ 4096
#define TIMES 10000000
extern void trim( char *str );
main()
{
int i;
char s[STRSZ];
for ( i = 0; i < TIMES; i ++ ) {
memset( s, ' ', STRSZ - 1 );
s[STRSZ - 1] = 0;
trim( s );
}
}

复制代码

测试结果如下（一千万次）：

c:
real 2m49.856s
user 2m49.838s
sys 0m0.020s
*str:
real 3m7.069s
user 3m7.059s
sys 0m0.008s

复制代码

测试环境为：Red Hat Linux 8.0 on VMware 4.5.0-build 7174

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

guixin

白手起家

论坛徽章:: 0

27楼 [报告]

发表于 2004-03-03 08:43 |只看该作者

【原创】超强版 Trim 横空出世！

这是我去两头空格的trim，欢迎大家指正：
void trim(char *chr)
{
            int len;
            len = strlen(chr);
            while(chr[0] == ' ')
            {
                  for(int i=0;i<len;i++)
                        chr=chr[i+1];
                  len -= 1;
            }

            for(int i=len-1;chr == ' ';i--)
                  chr=0;
}