免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2008 | 回复: 6
打印 上一主题 下一主题

[C] 一个关于C中内联汇编的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-09-23 21:39 |只看该作者 |倒序浏览
有这样一个流程

char bsc[256] 为一个大数组,元素个数足够多,不用考虑越界
char src[8] 存放临时数据,在别处赋值

#define UINT64 unsigned long long

程序里面有个语句

UINT64 tmp = ((UINT64)bsc[src[0]]) | ((UINT64)bsc[src[1]]<< | ((UINT64)bsc[src[2]]<<16) |
                ((UINT64)bsc[src[3]]<<24) | ((UINT64)bsc[src[4]]<<32) | ((UINT64)bsc[src[5]]<<40) |
                ((UINT64)bsc[src[6]]<<4 | ((UINT64)bsc[src[7]]<<56) ;

这个语句比较费cpu,我给改成类似这样:
                        char temp[8];

                        temp[0] = bsc[src[0]];
                        temp[1] = bsc[src[1]];
                        temp[2] = bsc[src[2]];
                        temp[3] = bsc[src[3]];
                        temp[4] = bsc[src[4]];
                        temp[5] = bsc[src[5]];
                        temp[6] = bsc[src[6]];
                        temp[7] = bsc[src[7]];
                       
                        UINT64 tmp = *(UINT64*)temp;

整体cpu占用减小一些(实际将那些移位操作给干掉了)

现在在希望cpu再省一些,想优化那几个赋值语句

希望用内联汇编来优化赋值过程
但是我对汇编不是很了解,有没有朋友看看这个汇编如何写呢?

  __asm__ volatile
(
        ".........\t\n"
        ".........\t\n"
        :
        :[BSC]"r"(*bsc),[SRC]"b"(*src),[TMP]"m"(*temp)
);

上述省略号处,可多行,就是这里面变址访问,不大会,看了些网页,似乎与我这个需求不是很吻合,有没有兄弟帮忙看看?

谢谢了



论坛徽章:
0
2 [报告]
发表于 2014-09-24 15:51 |只看该作者
为什么会觉得移位操作「费」CPU?
个人感觉你改写的反而效率更差。

编译后反汇编看一下就清楚了。

论坛徽章:
59
2015年亚洲杯之约旦
日期:2015-01-27 21:27:392015年亚洲杯之日本
日期:2015-02-06 22:09:41拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015元宵节徽章
日期:2015-03-06 15:50:392015年亚洲杯之阿联酋
日期:2015-03-19 17:39:302015年亚洲杯之中国
日期:2015-03-23 18:52:23巳蛇
日期:2014-12-14 22:44:03双子座
日期:2014-12-10 21:39:16处女座
日期:2014-12-02 08:03:17天蝎座
日期:2014-07-21 19:08:47
3 [报告]
发表于 2014-09-24 16:08 |只看该作者
回复 2# ShadowStar


    正解, 楼主优化的代码百分百更加慢了, 多了几倍的内存存取~
当然, 因为有Cache, 楼主的“优化后的"代码可能不会更慢,
但却有大小端问题。

论坛徽章:
0
4 [报告]
发表于 2014-09-25 08:54 |只看该作者
//直接用rep movsb指令COPY
int main(int argc, char** argv) {
    char src[256]="hello";
    char dst[256];
    //src复制到dst
    __asm__ __volatile__
    (
        "movl $256,%%ecx\n\t"
        "cld\n\t"
        "rep movsb\n\t"
        ::"S"(&src[0]),"D"(&dst[0])
    );
    printf("%s\n",dst);
    sleep(10000);
    return (EXIT_SUCCESS);
}

论坛徽章:
0
5 [报告]
发表于 2014-09-25 09:50 |只看该作者
to ShadowStar:  也许你说的是对的,不过还是建议你用性能工具看看,或许不是你原来以为的那样。另,这样的过程,不需要反汇编,编译时输出汇编不就可以了么
现在费cpu的就是那些赋值,你们看着我的问题就是希望优化这些赋值么?
大端小端问题确实存在,不过就目前的平台可不考虑

to:收到  (这名字很特别)
你的信息量够大,我先琢磨琢磨,先谢一下。

不管怎样,谢谢大家,我觉得有必要好好学学汇编。

论坛徽章:
0
6 [报告]
发表于 2014-09-25 17:30 |只看该作者
收到 发表于 2014-09-25 08:54
//直接用rep movsb指令COPY
int main(int argc, char** argv) {
    char src[256]="hello";


这位同学似乎没有看仔细。

论坛徽章:
0
7 [报告]
发表于 2014-09-25 17:57 |只看该作者
sunlock2014 发表于 2014-09-25 09:50
to ShadowStar:  也许你说的是对的,不过还是建议你用性能工具看看,或许不是你原来以为的那样。另,这样的 ...


objdump对比了一下,确实你改写的方式指令更少。
估计是由于代码更加直白,编译器容易「理解」并优化。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP