您好、欢迎来到现金彩票网!
当前位置:21点 > 自动并行化 >

如何迫使cpu放弃使用非规格化浮点计算提高性能

发布时间:2019-07-15 05:25 来源:未知 编辑:admin

  在摩尔定律尚成立的时代,出现晚的处理器正应该对应更高的FLOPS(原因是更高的运算电路密度 更高的时钟频率和更多的处理器内核)。

  九十年代末GPU出现伊始,其浮点运算性能和当时的CPU差别并不大,之后的将近十年,CPU处理器的发展遇到了瓶颈(电路密度由于制造工艺而无法大幅优化 时钟频率由于高功耗也无法进一步提升 多核由于其他方面的消耗 并未使运算效率线形提升),摩尔定律逐渐开始失效,然而计算机图形学这个应用领域却非常适合单指令多数据/线程(SIMD/SIMT)的并行化。因此,GPU在图形及通用并行计算方面都取得了飞速的发展。

  相对于传统CPU中单处理器支持单个硬件线程的架构,基于众核架构的GPU采用一个处理器支持多个硬件线程的做法,这方面的介绍在Berkeley和Stanford的有关并行计算的课程上都有讲到( )。

  NVIDIA自2007年开始推出CUDA至今,已经发展出了一套完整的二级并行架构。其中一簇执行同样指令的线程组成一个kernel,kernel又组合成一个block,在block级别有共享内存和其他的供线程间通信合作的机制。形象地说,这里的线程就是一个虚拟的向量处理器,其中包括自己的寄存器,程序计数器(PC)等,而一个block就是一个虚拟的多核处理器,其中包含多个线程和共享内存等。

  造成GPU和CPU根本差别的原因在于不同的目标需求:GPU假设运行其上的工作都是高度可并行的,而CPU需要同时很好的支持并行和顺序操作。于是,CPU需要大的片上缓存和复杂的控制逻辑,GPU则利用多线程并行运行节省了片上的大缓存,同时针对一簇线程执行同一套控制逻辑。

http://mervynsons.com/zidongbingxinghua/259.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有