免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: prolj
打印 上一主题 下一主题

Tilera公司的64核MIPS——Tile64 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2009-06-04 07:22 |显示全部楼层
1)芯片I/O的带宽,是芯片的技术指标,你做好了,卖给别人了,是固定的东西,没法提高。一个单核芯片,在跑代码时,不可能一直在做I/O,它还要做计算,还要访内存,咬文嚼字的话,叫I/O利用率不高。核多了,大家一起共享这I/O,I/O的利用率自然就高了。
2)嵌入式和大小无关。美F22飞机,我们的嫦娥一号,都是。

我在前面质疑的,或者说是提醒的,是有64核,做大数据流量处理,I/O会是个瓶子口。因为仆人就一个,主人有64个了,仆人的利用率是高了,可高到100%,这瓶颈就来了。

[ 本帖最后由 beepbug 于 2009-6-4 07:34 编辑 ]

论坛徽章:
0
12 [报告]
发表于 2009-06-09 20:24 |显示全部楼层
原帖由 Cyberman.Wu 于 2009-6-4 10:53 发表
I/O能否成为瓶颈更多取决于应用,如只是简单的转发,的确有可能一部分核就很容易做到20G线速转发;但如果做RSA加密、H.264编码等极其耗时的操作,则有可能64核全部投入也很难做到线速。不管是哪个CPU都只能根据 ...

你这样说,就切实了。我们不能闭着眼睛说“嵌入式”。
1)这类芯片适合于计算量极大而I/O吞吐量不很大的场合;
2)这复杂计算要能分解成几十个子任务来协作完成。

论坛徽章:
0
13 [报告]
发表于 2009-06-11 21:15 |显示全部楼层
MD5是可以做并行的。这个在山大做,详情不清楚。
我曾去看过上超、上交大、微软亚工,他们做的并行。
他们具体怎么做,我不明白。我是这样想的:
以你说的为例。流水步X11怎么做,要取决于前一步X10的结果。当然,一般来说,X10的结果可能是无数种的。但是,如果这无数种X10结果对X11的影响可以划分为N种,且这N小于64,就可以做并行了。用核00开始做X10时,可以同时启动核01-63分别做63种X11,等都完成后,按核00做的X10的结果,取这63种X11中的一种,其余丢弃。

论坛徽章:
0
14 [报告]
发表于 2009-06-12 06:41 |显示全部楼层
我说明一下,我在前面提出的质疑,本意是,我以为需求是第一位的。只要明确了需求,技术上迟早是能实现的。需求是启动器。我们与西方差距,有许多因素,第一条是对需求重视不够。
我在72楼说的,是猜想,也是从需求出发的猜想。
又譬如气象预报。能把气象预报做到N天后,这N,要取决于计算能力,因此,气象需要大机器。可大机器的主频并不高,它必须得并行,且是深度的并行。可能有许多并行算法,对我们门外汉来说,会觉得很变态。可仔细想想,不“变态”,这巨型机又如何发挥作用呢?

论坛徽章:
0
15 [报告]
发表于 2009-06-12 20:17 |显示全部楼层
你没仔细看我的话。就随着你说MD5吧。“是以128bit为单位算的”,没错。“上一轮的结果是4个32bit值”,也没错。但是,这2^128种结果,并不意味着对下一轮计算的影响也一定是2^128种。如果这2^128种结果对下一轮计算的影响,可以归结为N种,那就只需要N+1个核,我就可以做并行了。
如果这样还没说清楚,我说个极端的:譬如,结果如果是奇数,对下一轮是一种影响,结果是偶数,则是另一种影响,那我就只需要3个核就可以了。我在启动m步时,同时启动两个m+1步计算,一个是以奇数为参数,另一个则以偶数为参数。三个进程分别在三个核里跑。都完成时,判断第一个进程的结果,如果是奇数,就以第二个进程的结果为结果,否则以第三个进程的结果为结果。这样,这m步和m+1步就并行了。当然,没有这么幸运的事。这样简化,只是为了说明问题。
另外补充一点,山大不止王一人,有很多人在搞。不是签名攻击那么简单。他们做的事,有可能使我国在密码战中领先。

论坛徽章:
0
16 [报告]
发表于 2009-06-20 06:37 |显示全部楼层
原帖由 Cyberman.Wu 于 2009-3-12 12:03 发表
这个CPU主要还是针对嵌入式的,用于网络安全(如10GE的IDS/IPS)、视频编解码和无线的OFDM等。不过因为是基于软件的,所以也可以做许多其它的功能,比较灵活。目前国内接触过的人还比较少,呵呵。

我猜想,做视频处理应该比较合适吧?
譬如,要用插补技术提高视频信号的分辨率。一个核做解码,第二个核做插补,第三个核做编码。软件开发不需要并行开发工具,都是各管各的。你说已经有了基本的开发工具,这些就可以解决问题了。只需要一点内存共享与进程间通信。这个并行,相对来说比较简单。
如果本身分辨率较高、帧频较高,CPU跟不上,可以分段做插补,编码难度也相对算简单。
64核都动员起来,可以适应很高的信息流速。
请问,是不是这样?

论坛徽章:
0
17 [报告]
发表于 2009-06-20 16:43 |显示全部楼层
答77楼:
进程间通信,对这类肯定不会成问题。这芯片的瓶颈最大可能在I/O口。
答78楼:
这个密码只是举例。我完全是外行。我现在感兴趣的,只是如何做并行。“你如何知道是几种”,那是算法环节解决的事。
你不愿讨论,那也没办法。这并行事,说的人不少,愿讨论的真不多啊。

论坛徽章:
0
18 [报告]
发表于 2009-06-23 06:47 |显示全部楼层
好,那我先说个和任何别的技术都不搭界的问题。
几年前,上海超算中心、上交大、MS亚工院,曾联合搞了HPC(高性能计算)培训中心,负责的是我一亲戚,那时在上交大读硕。有幸和这三家几位老师谈。其中,曾说到,对if,也是并行计算的。遇if时,开3线程并行,甲计算条件式,乙做true部,丙做false部。等甲做完了,看甲的结果,或取乙结果扬弃丙,或取丙结果扬弃乙。如果甲做完了,乙丙还没完,若甲结果是true,就中止丙,等乙做完;反之,则中止乙,等丙做完。

论坛徽章:
0
19 [报告]
发表于 2009-06-26 05:46 |显示全部楼层
原帖由 Cyberman.Wu 于 2009-6-25 20:00 发表


这个是一种办法,但如果有2^128种可能性呢?

你还没从那个圈子里绕出来。
前一节有2^128种可能性,并不一定意味着对后一节有2^128种影响。前面我举了奇数、偶数这个极端例子,你没看明白。再举一个,如果前节对后节的影响,仅取决于前节计算结果的末4位(即模16),那就只需要17个核了。用1个核计算前节,用另外16个核分别按0-15预计算后节。等前节计算完成时,如果所有后节已计算完,则选取这些后节中与前节结果相符的那个;如果还没完成,就中止其中15个后节,只等相符的那个后节完成。

论坛徽章:
0
20 [报告]
发表于 2009-06-27 07:10 |显示全部楼层
你把MD5看成一个整体了。
这里主要是并行算法问题。并行处理,光说表面的东西,我也能理解,且觉得很伟大。可是,真正考虑如何实施,确实摸不着头脑。
山大为啥在MD5等方面有所突破,关键就在并行算法有突破。这是他们老师学生都这么说的。可惜我真不懂MD5,只好说说一般的东西。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP