12 / 2 页

论坛徽章:: 24

11楼 [报告]

发表于 2011-01-15 15:02 |只看该作者

本帖最后由 zhujiang73 于 2011-01-15 15:32 编辑

回复 zhujiang73

这个 kernel 其实不太好，global 数据访问太多了，但是它比较简单，在我的 ATI ...
zhujiang73 发表于 2011-01-14 12:03

改进一下 kernel ，开一个 __private 数组当缓存，看起来有点笨，但是真的可以加速。 {:3_189:}

建议有 ATI5* 以上显卡的程序员试试 AMD Math Libraries ，资料上说在中高端显卡上用 OpenCL 可以轻松使并行程序提速几十倍，如果是 N 卡 NV 也有对应的库。

__kernel void fft4_nx( __global const float4 *src, __global float4 *dst, __global const float2 *w, __global const int *b, const int nlen, const int m)
{
__private float4 aa[2048];
float2 w_l;
float4 a4,b4;
int p,dist;
int y = get_global_id(0);
for (int j=0; j<nlen; j++)
{
aa[j] = src[y*nlen+b[j]];
}
for(int lev=1; lev<=m; lev++)
{
dist = 1<<(lev-1);
for(int t=0; t<dist; t++)
{
p = t*(1<<(m-lev));
for(int i=t; i<nlen; i+=1<<lev)
{
w_l = w[p];
b4 = aa[i+dist];
a4.x = b4.x*w_l.x - b4.y*w_l.y;
a4.y = b4.x*w_l.y + b4.y*w_l.x;
a4.z = b4.z*w_l.x - b4.w*w_l.y;
a4.w = b4.z*w_l.y + b4.w*w_l.x;
aa[i+dist] = aa[i] - a4;
aa[i] = aa[i] + a4;
}
}
}
for (int j=0; j<nlen; j++)
{
dst[y*nlen+j] = aa[j];
}
}

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

mercuryknight

白手起家

论坛徽章:: 0

12楼 [报告]

发表于 2011-08-02 13:27 |只看该作者

CPU代码简单的翻译成OpenCL kernel执行效率不会提高太多，甚至可能会下降，即便高端GPU也不一定能比同档CPU强。如果是NVIDIA架构，global memory联合访问和local memory这两块优化好了，性能提高个四五倍不是问题。AMD的GPU不太清楚，但是也应该有类似的手段。FFT这东西成熟的典范太多，想在性能上有什么突破很难。而且好的算法互相都是有借鉴的，架构也比较复杂。就像Apple的OpenCL FFT，理念上极大的借鉴了FFTW。楼主如果有兴趣，可以拿这两个库对比一下看看性能差别

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhujiang73

富足长乐

论坛徽章:: 24

13楼 [报告]

发表于 2011-08-02 13:50 |只看该作者

CPU代码简单的翻译成OpenCL kernel执行效率不会提高太多，甚至可能会下降，即便高端GPU也不一定能比同档CPU ...
mercuryknight 发表于 2011-08-02 13:27

我那个老式的 ATI4570 GPU 只能做最简单的运算，以后的 GPU 应该和 CPU 共享同一个内存空间，这样就方便多了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

mercuryknight

白手起家

论坛徽章:: 0

14楼 [报告]

发表于 2011-08-04 01:30 |只看该作者

本帖最后由 mercuryknight 于 2011-08-04 01:56 编辑

回复 13# zhujiang73

CPU和GPU共享內存空间最大的问题不在于技术，而在于成本。技术上现在Intel和AMD都能做到，下一步从软件上把GPU编程的复杂度简化到跟CPU编程相似也不难做到。但是要GPU跟CPU一样去访问低速的系统内存，其优势就大大削弱了。反之要把系统内存整个都换成高端显卡上的高速GDDR，成本又会成倍上升。所以在可预见的未来几年，真正高性能科学计算领域，还得是GPU归GPU，CPU归CPU。短期内只有这种架构才是性能和成本之间的最佳平衡点。两者共享内存这种架构主要还是应对中低端家用电脑，去加速一些对性能不太敏感的日常应用。

另外你说AMD SDK里的FFT例子执行不了，可能是其他原因，并不是因为你GPU的问题。只要驱动支持OpenCL，理论上所有的OpenCL程序就应该都能跑。尤其这种官方自家出品的库，对自己硬件平台应该很了解，硬件参数也都可以在runtime获取，然后动态修改kernel，不至于因为某个硬件特征就彻底挂掉了。OpenCL总共才出了1.0，1.1两个版本，据我所知还没有把特定应用限制在特定平台上的情况出现，浮点精度问题除外，不过目前的OpenCL FFT默认设置应该都是单精度的，就算因为不支持双精度而出错，也会给出明确错误信息或警告。况且FFT算法用到的都是很常规的运算，就是加减乘除，sin，cos而已，没有理由某个GPU会运行不了。如果从程序代码本身角度考虑，有可能会发现原因。就像当初Apple的OpenCL FFT在我的Mac上跑的好好的，移植到linux下就各种问题。从PC的linux上移植到超级计算机的linux上又是各种问题。别看说的好听各种标准，有些时候还是需要自己动手去改的。毕竟OpenCL还在婴儿期，各路神仙还都是各自为政，将来标准逐渐成熟就好了。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

zhujiang73

富足长乐

论坛徽章:: 24

15楼 [报告]

发表于 2011-08-05 10:02 |只看该作者

回复 zhujiang73

CPU和GPU共享內存空间最大的问题不在于技术，而在于成本。技术上现在Intel和AMD都能 ...
mercuryknight 发表于 2011-08-04 01:30

"只要驱动支持OpenCL，理论上所有的OpenCL程序就应该都能跑。尤其这种官方自家出品的库，对自己硬件平台应该很了解，硬件参数也都可以在runtime获取，然后动态修改kernel，不至于因为某个硬件特征就彻底挂掉了。"

ati的4＊系列没有 OpenCL 的正式支持，看错误提示好像是什么处理单元的数目不够。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页

返回列表

Chinaunix › 论坛 › 程序设计 › C/C++ › 行列分解 2D FFT OpenCL 并行化

[算法] 行列分解 2D FFT OpenCL 并行化 [复制链接]