免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: prolj

CUDA很不错啊 [复制链接]

论坛徽章:
0
发表于 2009-01-01 01:42 |显示全部楼层
原帖由 cjaizss 于 2009-1-1 01:33 发表
对于fpga的设计,不应该站在软件角度上去思考,而应该站在硬件的角度上思考问题,设计fpga的时候,要想的是电路的样子,电路每时每刻是一个什么状态,而不是软件上执行到哪一句了。verilog的设计和C的设计差别还 ...

我的意思是都是连线之后写代码,没说你说的那么深入。表面上工作流程都差不多。
Verilog和C根本就不一回事。C可以关注算法,谁知道汇编出来啥样啊,我就知道没优化的IR啥样,优化之后都不一定清楚。但是这个不清从不碍事啊,程序结果不会错的/Verilog不一样啊,综合之后啥样,记不住的查书,可是优化之后呢?问题是我这样硬件不熟悉的就压根不知道啥地方会被优化。这要是万一错一点,整个fpga就算是错了。
ASIC fpga成熟之后的定型。

论坛徽章:
0
发表于 2009-01-01 01:54 |显示全部楼层
原帖由 system888net 于 2009-1-1 00:53 发表
在CUDA中,GPU不能直接访问主内存,不知道将来体系是否会有变化?
如果能直接访问就更好!

这个好,如果我设计硬件,会考虑这个因素。

论坛徽章:
3
2015年迎新春徽章
日期:2015-03-04 09:56:11数据库技术版块每日发帖之星
日期:2016-08-03 06:20:00数据库技术版块每日发帖之星
日期:2016-08-04 06:20:00
发表于 2009-01-01 02:08 |显示全部楼层
其实C编译的优化说来说去就那么几种类型。verilog的优化其实也就那么几种类型。两种语言都和各自所服务对象的最终形式比较接近。
verilog的调试和C语言调试一样,也可以从模块开始调试起。所以害怕如果错一点,整个FPGA就错了,是没有必要的。没有人可以保证一遍数字设计的结果就是最终想要的结果。其实换作C语言也一样,一个函数错了,整个C语言代码都错了
主要是你对数字设计可能相对陌生一点,其实熟悉了也就那么回事,呵呵。
总之,数字设计的思路和软件的思路不一样,它是硬件。
一个一个的verilog模块可以类比成一个一个板子上的芯片。
硬件是死的,软件是活的。这句话在设计硬件、软件的时候要永远深化下去,一步一步加深对这句话的理解。
当然,fpga还是有很真正硬件有不一样的地方,特别是它是配置出来这一点,这也可以让嵌入式系统设计相对灵活,仿佛这不是一个死的东西。然而,根据不同的情况灵活的配置不同的电路,这一般可以用cpu协助完成,这自然也属于活的东西,也是软件的控制。
另外,dsp的编译器一般没那么智能,要想发挥dsp的优势,汇编还是需要的,可以采取C+asm的设计方式,每种dsp是不一样的,所以可移植性可能是一个问题,但没办法。

论坛徽章:
3
2015年迎新春徽章
日期:2015-03-04 09:56:11数据库技术版块每日发帖之星
日期:2016-08-03 06:20:00数据库技术版块每日发帖之星
日期:2016-08-04 06:20:00
发表于 2009-01-01 02:12 |显示全部楼层
原帖由 prolj 于 2009-1-1 01:54 发表

这个好,如果我设计硬件,会考虑这个因素。

共存储是双刃剑

论坛徽章:
0
发表于 2009-01-01 02:18 |显示全部楼层
原帖由 cjaizss 于 2009-1-1 02:08 发表
其实C编译的优化说来说去就那么几种类型。verilog的优化其实也就那么几种类型。两种语言都和各自所服务对象的最终形式比较接近。
verilog的调试和C语言调试一样,也可以从模块开始调试起。所以害怕如果错一点, ...

这些...我再慢慢体会...
DSP是要用汇编才好,而且还得自己考虑指令之间的软流水之类的,也就是指令调度要人工完成,这个很麻烦。

论坛徽章:
0
发表于 2009-01-01 02:20 |显示全部楼层

回复 #34 cjaizss 的帖子

只是考虑这个因素。
分开呢就像load/stroe,这种优化不陌生。共存储和x86挺像?不知道,差不多吧,在寻址方式上比喻。

论坛徽章:
0
发表于 2009-01-01 10:59 |显示全部楼层
原帖由 cjaizss 于 2009-1-1 02:12 发表

共存储是双刃剑


没错,没有十全十美的事情.
当不能直接访问主存的时候就要向GPU里传送数据,这就要评估传输时间和计算时间的代价是否值得这样做。

论坛徽章:
0
发表于 2009-01-01 19:07 |显示全部楼层
原帖由 system888net 于 2009-1-1 10:59 发表


没错,没有十全十美的事情.
当不能直接访问主存的时候就要向GPU里传送数据,这就要评估传输时间和计算时间的代价是否值得这样做。


TI的DaVinci SOC, OMAP都是这种ARM+DSP的双Core结构,DSP core也是可以访问Memory的,可以提高不错的效率。个人觉得,还是好处多于坏处,当然得小心使用!

论坛徽章:
0
发表于 2009-01-01 22:06 |显示全部楼层
原帖由 bshawk 于 2009-1-1 19:07 发表


TI的DaVinci SOC, OMAP都是这种ARM+DSP的双Core结构,DSP core也是可以访问Memory的,可以提高不错的效率。个人觉得,还是好处多于坏处,当然得小心使用!


有道理.

论坛徽章:
0
发表于 2009-01-01 23:43 |显示全部楼层

回复 #1 prolj 的帖子

芯片运算
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP