免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 24113 | 回复: 56
打印 上一主题 下一主题

灭哈哈,想了多半年的时间,终于明白多核编程的实质了~!@#$%^&*( [复制链接]

论坛徽章:
4
戌狗
日期:2013-08-15 18:22:43技术图书徽章
日期:2013-08-21 13:48:45巨蟹座
日期:2013-09-26 17:06:39处女座
日期:2013-12-25 11:26:10
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2011-09-10 11:53 |只看该作者 |倒序浏览
基本原理概括为两句话:
1) CPU2若看到CPU1执行了某条指令,则必可看到CPU1中这条指令之前的所有指令。
2) CPU3若看到CPU2执行了某条指令,而此时CPU2若看到CPU1执行了某条指令,则CPU3必可看到CPU1中的这条指令。该原则递归。

是不是很有bbjmmj的味道?哈哈。


不过俺觉得这就是人脑对多核编程的第一个感性认识,抽象概括出来就是顺序模型。所以才有了乱序模型中的内存屏障。

《super-scalar processor design》
《Memory Consistency Models for Shared-Memory Multiprocessors》
《arm architecture referece manual     armv7A》
documentation/memory-barrier.txt
........................................................

  这些书都是在反复的讨论这两句话,灭哈哈。

评分

参与人数 2可用积分 +1 收起 理由
smalloc + 2 东莞技术沙龙的讲课内容?
帅绝人寰 -1 你丫玩变态禅啊

查看全部评分

论坛徽章:
7
丑牛
日期:2013-10-18 14:43:21技术图书徽章
日期:2013-11-03 09:58:03辰龙
日期:2014-01-15 22:57:50午马
日期:2014-09-15 07:04:39丑牛
日期:2014-10-16 14:25:222015年亚洲杯之伊朗
日期:2015-03-16 10:24:352015亚冠之城南
日期:2015-05-31 09:52:32
2 [报告]
发表于 2011-09-10 15:28 |只看该作者
"看到"是指引用其结果没?
CPU1中这条指令之前的所有指令--这个之前是指CPU1上已经运行的指令(这个没多大问题,如果每CPU读写总是按一定序), 还是指即使存在乱序的情况下, 在乱序之前的指令序都能被"看到".

论坛徽章:
24
狮子座
日期:2013-12-31 10:48:0015-16赛季CBA联赛之吉林
日期:2016-04-18 14:43:1015-16赛季CBA联赛之北控
日期:2016-05-18 15:01:4415-16赛季CBA联赛之上海
日期:2016-06-22 18:00:1315-16赛季CBA联赛之八一
日期:2016-06-25 11:02:2215-16赛季CBA联赛之佛山
日期:2016-08-17 22:48:2615-16赛季CBA联赛之福建
日期:2016-12-27 22:39:272016科比退役纪念章
日期:2017-02-08 23:49:4315-16赛季CBA联赛之八一
日期:2017-02-16 01:05:3415-16赛季CBA联赛之山东
日期:2017-02-22 15:34:5615-16赛季CBA联赛之上海
日期:2017-11-25 16:17:5015-16赛季CBA联赛之四川
日期:2016-01-17 18:38:37
3 [报告]
发表于 2011-09-10 17:19 |只看该作者
基本原理概括为两句话:
1) CPU2若看到CPU1执行了某条指令,则必可看到CPU1中这条指令之前的所有指令。
2 ...
塑料袋 发表于 2011-09-10 11:53



    一个 CPU 执行一个线程,看什么看。

论坛徽章:
4
戌狗
日期:2013-08-15 18:22:43技术图书徽章
日期:2013-08-21 13:48:45巨蟹座
日期:2013-09-26 17:06:39处女座
日期:2013-12-25 11:26:10
4 [报告]
发表于 2011-09-10 17:47 |只看该作者
没人来踩。抬杠都没机会。唉

论坛徽章:
11
未羊
日期:2013-12-16 12:45:4615-16赛季CBA联赛之青岛
日期:2016-04-11 19:17:4715-16赛季CBA联赛之广夏
日期:2016-04-06 16:34:012015亚冠之卡尔希纳萨夫
日期:2015-11-10 10:04:522015亚冠之大阪钢巴
日期:2015-07-30 18:29:402015亚冠之城南
日期:2015-06-15 17:56:392015亚冠之卡尔希纳萨夫
日期:2015-05-15 15:19:272015亚冠之山东鲁能
日期:2015-05-14 12:38:13金牛座
日期:2014-12-04 15:34:06子鼠
日期:2014-10-16 13:40:4715-16赛季CBA联赛之八一
日期:2016-07-22 09:41:40
5 [报告]
发表于 2011-09-10 20:31 |只看该作者
没人来踩。抬杠都没机会。唉
塑料袋 发表于 2011-09-10 17:47


不踩, 求科普

论坛徽章:
4
戌狗
日期:2013-08-15 18:22:43技术图书徽章
日期:2013-08-21 13:48:45巨蟹座
日期:2013-09-26 17:06:39处女座
日期:2013-12-25 11:26:10
6 [报告]
发表于 2011-09-10 21:34 |只看该作者
"看到"是指引用其结果没?
CPU1中这条指令之前的所有指令--这个之前是指CPU1上已经运行的指令(这个没多大问题,如果每CPU读写总是按一定序), 还是指即使存在乱序的情况下, 在乱序之前的指令序都能被"看到".

smalloc 发表于 2011-09-10 15:28



这里是说的顺序模型。不过这个是最重要的。

因为乱序模型是根据顺序模型来设计的,mb()的作用,就是搞了个顺序一致的点,mb()前后的指令表现为顺序一致。   


什么叫“看到”,虽然很多个文档中定义了到底什么叫“看到”,不过以arm architecture reference manual中定义的最为标准。

什么时候可以认为load指令被看到?  对同一地址执行store时,不影响load的返回结果,即为load被看到

什么时候可以认为store指令被看到?  对同一地址执行load时,将返回store的值,即为store被看到



虽然原理看起来很简单,不过reorder buffer,load / store unit,store buffer,cache............的设计,均是以此为出发点。


一个例子,执行mb()时需要将CPU1的各个读写请求通过MESI发给别的CPU,然后等待这些读写请求完成,即这些请求的应答reply后,才叫mb()执行完成。

但是为什么对于读请求,需要这个读操作确实在其他CPU的cache中完成,才能发回reply; 但是对于写请求,仅仅是将invalidate request挂在其他CPU的incoming queue上,不等invalidate在其他CPU的cache中完成,就可以发回来reply???

对于上边这种情况,有一个基本的设计原则:对于本CPU而言,
1) 从其他CPU发过来的invalidate request,
2) 从其他CPU发过来的的read reply,invalidate reply

这两类数据包之间,一定不能乱序;但是本类数据包内部,可以乱序。 这样的话:

处理其他CPU发来的read replay之前,则必然已经处理了其他CPU发来的invalidate request。即看到其他CPU的一个store操作时,则必然可看到这个store之前的所有store。

处理其他CPU发来的invalidate replay之前,则必然已经处理了其他CPU发来的invalidate request。即看到其他CPU的一个load操作时,则必然可看到这个load之前的所有store。

论坛徽章:
7
丑牛
日期:2013-10-18 14:43:21技术图书徽章
日期:2013-11-03 09:58:03辰龙
日期:2014-01-15 22:57:50午马
日期:2014-09-15 07:04:39丑牛
日期:2014-10-16 14:25:222015年亚洲杯之伊朗
日期:2015-03-16 10:24:352015亚冠之城南
日期:2015-05-31 09:52:32
7 [报告]
发表于 2011-09-10 22:01 |只看该作者
本帖最后由 smalloc 于 2011-09-10 22:13 编辑

回复 6# 塑料袋


    记得LZ曾说过 构架是精髓, 以上似乎还是一些细节, 实际上多核这东西已经有对应的抽象理论, 称为分布式计算 另外有个petri 网也是专门研究异步的, 就是把并行异步的逻辑模型单独把出来搞.

论坛徽章:
11
未羊
日期:2013-12-16 12:45:4615-16赛季CBA联赛之青岛
日期:2016-04-11 19:17:4715-16赛季CBA联赛之广夏
日期:2016-04-06 16:34:012015亚冠之卡尔希纳萨夫
日期:2015-11-10 10:04:522015亚冠之大阪钢巴
日期:2015-07-30 18:29:402015亚冠之城南
日期:2015-06-15 17:56:392015亚冠之卡尔希纳萨夫
日期:2015-05-15 15:19:272015亚冠之山东鲁能
日期:2015-05-14 12:38:13金牛座
日期:2014-12-04 15:34:06子鼠
日期:2014-10-16 13:40:4715-16赛季CBA联赛之八一
日期:2016-07-22 09:41:40
8 [报告]
发表于 2011-09-11 01:54 |只看该作者
这里是说的顺序模型。不过这个是最重要的。

因为乱序模型是根据顺序模型来设计的,mb()的作用,就 ...
塑料袋 发表于 2011-09-10 21:34


楼主能否解释的更清楚一些, 或者推荐几本资料; 一直对乱序执行莫测高深, 怎么也不明白怎么能乱序而不影响执行结果, 也不明白怎么在代码级能够预测乱序的发生

论坛徽章:
4
戌狗
日期:2013-08-15 18:22:43技术图书徽章
日期:2013-08-21 13:48:45巨蟹座
日期:2013-09-26 17:06:39处女座
日期:2013-12-25 11:26:10
9 [报告]
发表于 2011-09-11 17:25 |只看该作者
《super-scalar processor design》: 这本侧重乱序,超标量等。
《Memory Consistency Models for Shared-Memory Multiprocessors》:这本侧重多核的抽象模型。


乱序的基本原理就是“取指”,“译码”都是顺序的;  

大部分指令的执行结果都要写回到一个寄存器中,虽然指令的“执行”是乱序的,但是还是顺序的将结果“提交到”register file,即真正的写到寄存器中。

CPU在“译码”阶段,额外给每条指令关联了一个唯一的ID号, 将来通过这个ID号,即可检索到这条指令的执行结果。

CPU在“译码”阶段,如果一条指令依赖于上条指令,那么上条指令的ID号,即是本条指令的源操作数;或者上条条指令已经执行完毕,那么上条指令的执行结果,即是本条指令的源操作数。

CPU一股脑的“译码”了一大片指令,每条指令“执行”完毕后,都会将其ID号与执行结果在CPU内部广播。 源操作数为这个ID号的已译码指令,会将源操作数从ID号置换为这个执行结果。

这样,源操作数里不包含ID号的指令就可以“执行”,源操做数里还包含着ID号的指令就等待,由此来的“乱序”。




不过,CPU是乱序的,其读写内存完全可能是顺序的,这要视其load / store unit的设计。

open sparc的specification里比较详细的描述了load / store unit的设计。

《Memory Consistency Models for Shared-Memory Multiprocessors》里,描述了load / store unit的一般性设计,并描述了分析其设计需求的方法。

论坛徽章:
2
CU十二周年纪念徽章
日期:2013-10-24 15:41:34处女座
日期:2013-12-27 22:22:41
10 [报告]
发表于 2011-09-11 20:45 |只看该作者
大湿高处不胜寒啊~~
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP