点击下方卡片,关注「集智书童」公众号
转载丨程序员闻星 来源丨https://mp.weixin.qq.com/s/k40MGE92bVLX-14z7Msxyg 编辑丨小书童
https://github.com/pytorch/pytorch/releases/tag/v2.0.0
我们很高兴地宣布 PyTorch® 2.0(发行说明)的发布,这是我们在 12/2/22 的 PyTorch 大会上强调的!PyTorch 2.0 在保持与之前版本相同的即时模式开发和用户体验的同时,在编译器级别对 PyTorch 的底层操作进行了根本性的改变和加速,提高了性能,并支持动态形状和分布式。
这个新一代的发布包括加速变换器(Accelerated Transformers,之前称为更好的变换器)的稳定版本;Beta 版本包括作为 PyTorch 2.0 主要 API 的 torch.compile,作为 torch.nn.functional 部分的 scaled_dot_product_attention 函数,MPS 后端,以及 torch.func 模块中的 functorch API;以及各种推理、性能和在 GPU 和 CPU 上的训练优化功能的 Beta/Prototype 改进。要获取有关 torch.compile 的全面介绍和技术概述,请访问 2.0 入门页面。
与 2.0 一起,我们还发布了一系列 PyTorch 领域库的 Beta 更新,包括那些内置的库和独立库,如 TorchAudio,TorchVision 和 TorchText。TorchX 也在发布更新,因为它转向社区支持模式。有关更多详细信息,请参阅此库博客。
此版本包括自 1.13.1 以来的 4,541 个提交和 428 个贡献者。我们衷心感谢我们忠实的社区为您的贡献。一如既往,我们鼓励您尝试这些并报告任何问题,以便我们在今年改进 2.0 和整个 2 系列。
概要:
-
torch.compile 是 PyTorch 2.0 的主要 API,它封装了您的模型并返回一个编译过的模型。它是一个完全附加的(可选)特性,因此 2.0 按定义是 100% 向后兼容的。
-
作为 torch.compile 的基础技术,TorchInductor 将依赖 OpenAI Triton 深度学习编译器在 Nvidia 和 AMD GPU 上生成高性能代码并隐藏底层硬件细节。OpenAI Triton 生成的内核在性能上与手工编写的内核和专门的 cuda 库(如 cublas)相当。
-
加速变换器引入了使用自定义内核架构的缩放点积注意力(SPDA)进行训练和推理的高性能支持。该 API 与 torch.compile() 集成,模型开发人员还可以通过调用新的 scaled_dot_product_attention() 操作直接使用缩放点积注意力内核。
-
Metal 性能着色器(MPS)后端为 Mac 平台上的 PyTorch 训练提供 GPU 加速支持,并增加了对 Top 60 最常用操作的支持,将覆盖范围扩大到 300 多个操作符。
-
Amazon AWS 优化了基于 AWS Graviton3 的 C7g 实例上的 PyTorch CPU 推理。与之前的版本相比,PyTorch 2.0 在 Graviton 上的推理性能得到了改进,包括对 Resnet50 和 Bert 的改进。
-
在 TensorParallel、DTensor、2D 并行、TorchDynamo、AOTAutograd、PrimTorch 和 TorchInductor 等方面引入了新的原型特性和技术。
-
总之,PyTorch 2.0 带来了许多激动人心的新功能和改进,包括加速变换器、更强大的编译器支持和多样化的后端支持。这些更新将有助于提高 PyTorch 在各种应用场景中的性能和实用性,进一步巩固其在深度学习领域的领导地位。
[
GPT-4多模态大模型发布!98页《OpenAI GPT-4 技术报告》论文详细阐述!](https://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247504738&idx=2&sn=635d562f60450f268f797becc623fb53&chksm=feb833dcc9cfbaca18aa89fb650226126431890cfd76c160b57301813e738f5ea6730916c821&scene=21#wechat_redirect)
[
[
董明珠谈“35 岁职场危机”:不理解,人们要到60岁才退休;小红书调整组织架构押注直播电商;软银等限制使用ChatGPT](https://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247504586&idx=2&sn=bdce328b29db7329ddd9606a24bff2fb&chksm=feb83274c9cfbb62c635689ce629a163224848e0cca225d4daac728d9ea18094cbeb81913b47&scene=21#wechat_redirect)
扫码加入👉「集智书童」交流群
(备注: 方向+学校/公司+昵称 )
想要了解更多:
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」
AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」
欢迎扫描上方二维码,加入「 集智书童-知识星球 」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
点击下方“ 阅读原文 ”,
了解更多AI学习路上的 「武功秘籍」