12 3 4 5 6 / 6 页下一页

论坛徽章:: 4

电梯直达

1楼 [收藏(0)] [报告]

发表于 2011-09-10 11:53 |只看该作者 |倒序浏览

基本原理概括为两句话：
1) CPU2若看到CPU1执行了某条指令，则必可看到CPU1中这条指令之前的所有指令。
2) CPU3若看到CPU2执行了某条指令，而此时CPU2若看到CPU1执行了某条指令，则CPU3必可看到CPU1中的这条指令。该原则递归。

是不是很有bbjmmj的味道？哈哈。

不过俺觉得这就是人脑对多核编程的第一个感性认识，抽象概括出来就是顺序模型。所以才有了乱序模型中的内存屏障。

《super-scalar processor design》
《Memory Consistency Models for Shared-Memory Multiprocessors》
《arm architecture referece manual armv7A》
documentation/memory-barrier.txt
........................................................

这些书都是在反复的讨论这两句话，灭哈哈。

评分

参与人数 2	可用积分 +1	收起理由
smalloc	+ 2	东莞技术沙龙的讲课内容?
帅绝人寰	-1	你丫玩变态禅啊

查看全部评分

文库|博客

smalloc

丰衣足食

论坛徽章:: 7

2楼 [报告]

发表于 2011-09-10 15:28 |只看该作者

"看到"是指引用其结果没?
CPU1中这条指令之前的所有指令--这个之前是指CPU1上已经运行的指令(这个没多大问题,如果每CPU读写总是按一定序), 还是指即使存在乱序的情况下, 在乱序之前的指令序都能被"看到".

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhujiang73

富足长乐

论坛徽章:: 24

3楼 [报告]

发表于 2011-09-10 17:19 |只看该作者

基本原理概括为两句话：
1) CPU2若看到CPU1执行了某条指令，则必可看到CPU1中这条指令之前的所有指令。
2 ...
塑料袋发表于 2011-09-10 11:53

一个 CPU 执行一个线程，看什么看。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

塑料袋

白手起家

论坛徽章:: 4

4楼 [报告]

发表于 2011-09-10 17:47 |只看该作者

没人来踩。抬杠都没机会。唉

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zylthinking

大富大贵

论坛徽章:: 11

5楼 [报告]

发表于 2011-09-10 20:31 |只看该作者

没人来踩。抬杠都没机会。唉
塑料袋发表于 2011-09-10 17:47

不踩，求科普

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

塑料袋

白手起家

论坛徽章:: 4

6楼 [报告]

发表于 2011-09-10 21:34 |只看该作者

"看到"是指引用其结果没?
CPU1中这条指令之前的所有指令--这个之前是指CPU1上已经运行的指令(这个没多大问题,如果每CPU读写总是按一定序), 还是指即使存在乱序的情况下, 在乱序之前的指令序都能被"看到".

smalloc 发表于 2011-09-10 15:28

这里是说的顺序模型。不过这个是最重要的。

因为乱序模型是根据顺序模型来设计的，mb()的作用，就是搞了个顺序一致的点，mb()前后的指令表现为顺序一致。

什么叫“看到”，虽然很多个文档中定义了到底什么叫“看到”，不过以arm architecture reference manual中定义的最为标准。

什么时候可以认为load指令被看到？对同一地址执行store时，不影响load的返回结果，即为load被看到

什么时候可以认为store指令被看到？对同一地址执行load时，将返回store的值，即为store被看到

虽然原理看起来很简单，不过reorder buffer，load / store unit，store buffer，cache............的设计，均是以此为出发点。

一个例子，执行mb()时需要将CPU1的各个读写请求通过MESI发给别的CPU，然后等待这些读写请求完成，即这些请求的应答reply后，才叫mb()执行完成。

但是为什么对于读请求，需要这个读操作确实在其他CPU的cache中完成，才能发回reply；但是对于写请求，仅仅是将invalidate request挂在其他CPU的incoming queue上，不等invalidate在其他CPU的cache中完成，就可以发回来reply？？？

对于上边这种情况，有一个基本的设计原则：对于本CPU而言，
1) 从其他CPU发过来的invalidate request，
2) 从其他CPU发过来的的read reply，invalidate reply

这两类数据包之间，一定不能乱序；但是本类数据包内部，可以乱序。这样的话：

处理其他CPU发来的read replay之前，则必然已经处理了其他CPU发来的invalidate request。即看到其他CPU的一个store操作时，则必然可看到这个store之前的所有store。

处理其他CPU发来的invalidate replay之前，则必然已经处理了其他CPU发来的invalidate request。即看到其他CPU的一个load操作时，则必然可看到这个load之前的所有store。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

smalloc

丰衣足食

论坛徽章:: 7

7楼 [报告]

发表于 2011-09-10 22:01 |只看该作者

本帖最后由 smalloc 于 2011-09-10 22:13 编辑

回复 6# 塑料袋

记得LZ曾说过构架是精髓, 以上似乎还是一些细节, 实际上多核这东西已经有对应的抽象理论, 称为分布式计算另外有个petri 网也是专门研究异步的, 就是把并行异步的逻辑模型单独把出来搞.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zylthinking

大富大贵

论坛徽章:: 11

8楼 [报告]

发表于 2011-09-11 01:54 |只看该作者

这里是说的顺序模型。不过这个是最重要的。

因为乱序模型是根据顺序模型来设计的，mb()的作用，就 ...
塑料袋发表于 2011-09-10 21:34

楼主能否解释的更清楚一些，或者推荐几本资料；一直对乱序执行莫测高深，怎么也不明白怎么能乱序而不影响执行结果，也不明白怎么在代码级能够预测乱序的发生

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

塑料袋

白手起家

论坛徽章:: 4

9楼 [报告]

发表于 2011-09-11 17:25 |只看该作者

《super-scalar processor design》: 这本侧重乱序，超标量等。
《Memory Consistency Models for Shared-Memory Multiprocessors》：这本侧重多核的抽象模型。

乱序的基本原理就是“取指”，“译码”都是顺序的；

大部分指令的执行结果都要写回到一个寄存器中，虽然指令的“执行”是乱序的，但是还是顺序的将结果“提交到”register file，即真正的写到寄存器中。

CPU在“译码”阶段，额外给每条指令关联了一个唯一的ID号, 将来通过这个ID号，即可检索到这条指令的执行结果。

CPU在“译码”阶段，如果一条指令依赖于上条指令，那么上条指令的ID号，即是本条指令的源操作数；或者上条条指令已经执行完毕，那么上条指令的执行结果，即是本条指令的源操作数。

CPU一股脑的“译码”了一大片指令，每条指令“执行”完毕后，都会将其ID号与执行结果在CPU内部广播。源操作数为这个ID号的已译码指令，会将源操作数从ID号置换为这个执行结果。

这样，源操作数里不包含ID号的指令就可以“执行”，源操做数里还包含着ID号的指令就等待，由此来的“乱序”。

不过，CPU是乱序的，其读写内存完全可能是顺序的，这要视其load / store unit的设计。

open sparc的specification里比较详细的描述了load / store unit的设计。

《Memory Consistency Models for Shared-Memory Multiprocessors》里，描述了load / store unit的一般性设计，并描述了分析其设计需求的方法。