PyTorch 2.0 正式发版~ - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

转载丨程序员闻星来源丨https://mp.weixin.qq.com/s/k40MGE92bVLX-14z7Msxyg 编辑丨小书童

https://github.com/pytorch/pytorch/releases/tag/v2.0.0

picture.image

我们很高兴地宣布 PyTorch® 2.0（发行说明）的发布，这是我们在 12/2/22 的 PyTorch 大会上强调的！PyTorch 2.0 在保持与之前版本相同的即时模式开发和用户体验的同时，在编译器级别对 PyTorch 的底层操作进行了根本性的改变和加速，提高了性能，并支持动态形状和分布式。

这个新一代的发布包括加速变换器（Accelerated Transformers，之前称为更好的变换器）的稳定版本；Beta 版本包括作为 PyTorch 2.0 主要 API 的 torch.compile，作为 torch.nn.functional 部分的 scaled_dot_product_attention 函数，MPS 后端，以及 torch.func 模块中的 functorch API；以及各种推理、性能和在 GPU 和 CPU 上的训练优化功能的 Beta/Prototype 改进。要获取有关 torch.compile 的全面介绍和技术概述，请访问 2.0 入门页面。

与 2.0 一起，我们还发布了一系列 PyTorch 领域库的 Beta 更新，包括那些内置的库和独立库，如 TorchAudio，TorchVision 和 TorchText。TorchX 也在发布更新，因为它转向社区支持模式。有关更多详细信息，请参阅此库博客。

此版本包括自 1.13.1 以来的 4,541 个提交和 428 个贡献者。我们衷心感谢我们忠实的社区为您的贡献。一如既往，我们鼓励您尝试这些并报告任何问题，以便我们在今年改进 2.0 和整个 2 系列。

概要：

torch.compile 是 PyTorch 2.0 的主要 API，它封装了您的模型并返回一个编译过的模型。它是一个完全附加的（可选）特性，因此 2.0 按定义是 100% 向后兼容的。
作为 torch.compile 的基础技术，TorchInductor 将依赖 OpenAI Triton 深度学习编译器在 Nvidia 和 AMD GPU 上生成高性能代码并隐藏底层硬件细节。OpenAI Triton 生成的内核在性能上与手工编写的内核和专门的 cuda 库（如 cublas）相当。
加速变换器引入了使用自定义内核架构的缩放点积注意力（SPDA）进行训练和推理的高性能支持。该 API 与 torch.compile() 集成，模型开发人员还可以通过调用新的 scaled_dot_product_attention() 操作直接使用缩放点积注意力内核。
Metal 性能着色器（MPS）后端为 Mac 平台上的 PyTorch 训练提供 GPU 加速支持，并增加了对 Top 60 最常用操作的支持，将覆盖范围扩大到 300 多个操作符。
Amazon AWS 优化了基于 AWS Graviton3 的 C7g 实例上的 PyTorch CPU 推理。与之前的版本相比，PyTorch 2.0 在 Graviton 上的推理性能得到了改进，包括对 Resnet50 和 Bert 的改进。
在 TensorParallel、DTensor、2D 并行、TorchDynamo、AOTAutograd、PrimTorch 和 TorchInductor 等方面引入了新的原型特性和技术。
总之，PyTorch 2.0 带来了许多激动人心的新功能和改进，包括加速变换器、更强大的编译器支持和多样化的后端支持。这些更新将有助于提高 PyTorch 在各种应用场景中的性能和实用性，进一步巩固其在深度学习领域的领导地位。