在线研讨会 | CUDA 11 编程新特性介绍

picture.image

开发人员可以使用 CUDA 完成 GPU 程序的开发,优化和部署,而 CUDA 11 引入了诸多编程新方法和新 API,进一步提升了 GPU 的可编程能力,充分释放了新一代安培 GPU 架构的硬件性能。

本次报告中,我们会重点介绍 CUDA 11 在编程方面的新特性,包含以下几个方面:

(1) CUDA kernel 中 warp 级别 reduction 的新实现方法。以往 warp 级别 reduction 需要多步 SHFL 操作,而现在被简化为一步操作,并得到 A100 的硬件加速。

(2) L2 的缓存驻留。该技术可以把频繁访问的数据留在 L2 缓存,从而减少全局内存访问压力,提高程序的吞吐。我们会详细讨论设置 L2 访问策略窗口时需要考虑的问题。

(3) CUDA kernel 中的异步数据拷贝。该技术可以将数据从全局内存到共享内存的拷贝时间与计算时间相重叠,并且优化了拷贝过程中对于寄存器和 L1 缓存的使用。A100 也为此实现了硬件加速。

(4) CUDA kernel 中的异步 barrier。它将 barrier 拆分为到达(arrive)和等待(wait)两个操作。线程可以推迟等待,利用以往等待的时间完成一些与 barrier 无关的计算,从而减少等待时间。同时,该技术可以帮助实现不限于 warp 级别或 block 级别的更自由的线程粒度的同步。

总之,本次在线研讨会主要面向对CUDA新特性感兴趣的、有一定经验的GPU开发者。通过本次在线研讨会,您可以获得以下内容:

A100 架构的 新特性

Warp 级别 reduction 的新实现方法

L2 缓存驻留技术

全局内存到共享内存的异步数据拷贝

异步 barrier

--- 日程安排 ---

2021年1月20日(星期三)

| |

8:00 PM - 9:00 PM

|

直播

| |

9:00 PM - 9:30 PM

|

答疑

|

嘉宾介绍

picture.image

张静蓉

NVIDIA GPU 计算专家

拥有多年 CUDA 开发经验,参与完成了利用 CUDA 加速自然语言处理领域的 XLNet 模型,推荐系统常用的 TOP-K 算法加速等工作。

识别二维码注册本次在线研讨会

picture.image

已经完成注册的朋友,

请添加微信 “NVChina01”

进入本次在线研讨会直播交流群。

扫描下方二维码关注【AI人工智能初学者】公众号,获取更多实践项目源码和论文解读,非常期待你我的相遇,让我们以梦为马,砥砺前行!!!

picture.image 点“在看”给我一朵小黄花呗 picture.image

0
0
0
0
评论
未登录
暂无评论