论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2007-09-24 14:32 |只看该作者 |倒序浏览

最近在看RHEL4.5的glibc的时候发现了，关于tls的一段内联汇编，里面有这么一段关于线程栈的操作，有意思的是x86和EM64T下都有这段实现，但是汇编级别的指令用的不太一样，如下：
x86
————————————————————————————————————————————————
/* Call the user-provided thread function.  */
#define CALL_THREAD_FCT(descr) \
  ({ void *__res;       \
   int __ignore1, __ignore2;       \
   asm volatile ("pushl %%eax\n\t"       \
   "pushl %%eax\n\t"       \
   "pushl %%eax\n\t"       \
   "pushl %%gs:%P4\n\t"       \
   "call *%%gs:%P3\n\t"       \
   "addl $16, %%esp"       \
   : "=a" (__res), "=c" (__ignore1), "=d" (__ignore2)       \
   : "i" (offsetof (struct pthread, start_routine)),       \
      "i" (offsetof (struct pthread, arg)));       \
   __res; })
——————————————————————————————————————————————————————
EM64T：
——————————————————————————————————————————————————————
#define CALL_THREAD_FCT(descr) \
  ({ void *__res;       \
   asm volatile ("movq %%fs:%P2, %%rdi\n\t"       \
   "callq *%%fs:%P1"       \
   : "=a" (__res)       \
   : "i" (offsetof (struct pthread, start_routine)),       \
      "i" (offsetof (struct pthread, arg))       \
   : "di", "si", "cx", "dx", "r8", "r9", "r10", "r11",       \
      "memory", "cc");       \
   __res; })
——————————————————————————————————————————————————————
可以看出EM64T，用一个movq就完成了x86用了4个pushl的工作，用一个callq就完成了x86用call+addl的工作，从指令的数量上来看是明显减少了。
但是，对于movq，pushl的指令周期各是多少就不太有把握了，去intel官网上看过manual了，上面只有介绍指令的用法没有涉及到指令周期的说明，看到这里有发过intel指令集的可是直到奔腾级别的，并且没有出现movq，movl，pushl等sse或mmx的指令。
并且在nasm下，试图使用像masm上用/Sc生成list文件的方法看指令周期，但是nasm的list文件里只有指令16进制的生成码，并没有指令周期可以看。
如果大家有intel 指令周期（包含有movl，movq等）的资料或者有linux下取得这些指令的指令周期的方法请不吝赐教，感激不尽！

文库|博客

mik

荣誉版主

论坛徽章:: 0

2楼 [报告]

发表于 2007-09-24 22:12 |只看该作者

这两段代码只表述了32位和64位下的区别,并不代表64位一定比32的要快

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

cleverforever

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2007-09-26 13:45 |只看该作者

但是测试出来的结果显示，250sec内EM64T生成的thread数比x86的高出了30%左右，我想这就是EM64T采用64bit数据带宽带来的好处，movq就是64bit的操作指令之一。但是具体他比32bit的movl快多少，我还没想到很精确的测试方法，希望Intel对于64bit编程环境的汇编指令周期能有官方的资料提供。