终于可用可组合函数转换库!PyTorch 1.11发布,弥补JAX短板,支持Python 3.10

简介: 终于可用可组合函数转换库!PyTorch 1.11发布,弥补JAX短板,支持Python 3.10

PyTorch 1.11、TorchData 和 functorch 现已推出。


近日,PyTorch 官方宣布推出 PyTorch 1.11,此版本由 1.10 版本以来的 3,300 多次 commits 组成,由 434 位贡献者完成。此外,本次 PyTorch 官方同时发布了受 JAX 启发的库 TorchData 和 functorch 的 Beta 版本。

假如你是一名长期的 TensorFlow 用户,你一直想切换到 JAX 或 PyTorch,或许 1.11 版本能为你带来帮助。


PyTorch地址:https://pytorch.org/blog/pytorch-1.11-released/

本次亮点可总结为如下:

TorchData 是一个新的库,用于通用模块化数据加载原型,可以轻松构建灵活、高性能的数据 pipeline。

functorch 是一个向 PyTorch 添加可组合函数转换的库。

分布式数据并行 (DDP) 静态图优化趋于稳定。


网友也不禁感叹:终于可以安装 functorch,一套受 JAX 启发的 ops!vjp、 jvp、 vmap... 终于可用了!!!


推出 TorchData

TorchData Beta 版:这是一个通用模块化数据加载原型库,用于轻松构建灵活且高性能的数据 pipeline。根据社区反馈,PyTorch 官方发现现有的 DataLoader 将太多的功能捆绑在一起,难以扩展。此外,不同的用例通常必须重写相同的数据加载实用程序。TorchData 的目标是通过 Iterable-style 和 Map-style 的构建块 DataPipes 来实现可组合数据加载,这些构建块与 PyTorch 的 DataLoader 达到开箱即用。

DataPipe 接受 Python 数据结构上一些访问函数:__iter__用于 IterDataPipe,__getitem__用于 MapDataPipe,它们会返回一个新的访问函数。你可以将多个 DataPipe 连接在一起,形成数据 pipeline,以执行必要的数据转换工作。PyTorch 官方已经实现了超过 50 个 DataPipes,它们提供了不同的核心功能,比如打开文件、解析文本、转换样本、缓存、shuffling 和批处理。那些对连接到云提供商(如谷歌 Drive 或 AWS S3)感兴趣的用户, fsspec 和 iopath DataPipes 会提供帮助。想了解更对关于 IterDataPipe 和 MapDataPipe 的研究者,可以参考官方文档。

在 PyTorch1.1 版本中,一些 PyTorch 域库已经将数据集迁移到 DataPipes。在 TorchText 中提供的流行数据集是使用 DataPipes 实现的,其 SST-2 二进制文本分类教程的一部分演示了如何使用 DataPipes 为模型预处理数据。在 TorchVision 和 TorchRec 中还有其他数据集的原型实现。你可以参考官方提供的具体的示例。

TorchData 文档已经上线,它包含一个教程,教程介绍了如何使用 DataPipes、将它们与 DataLoader 一起使用、如何实现自定义。

推出 functorch

PyTorch 官方宣布推出 functorch 的首个 beta 版本。受到 Google JAX 的极大启发,functorch 是一个向 PyTorch 添加可组合函数转换的库。该库旨在提供可组合的 vmap(向量化)和 autodiff 转换,可与 PyTorch 模块和 PyTorch autograd 一起使用,并具有良好的渴望模式(eager-mode)性能。

可组合的函数转换可以帮助解决当前在 PyTorch 中难以实现的许多用例:

计算每样本梯度(per-sample-gradients)(或者其他每样本量)

单机运行模型集合

在 MAML 内循环中高效地批处理任务

高效地计算(批处理)雅可比矩阵(Jacobians)和黑塞矩阵(Hessians)


vmap(向量化)、vjp(反向模式 AD)和 jvp(前向模式 AD)转换的组合使得用户毫不费劲地表达上述内容,无需为每个转换设计单独的库。

分布式训练:稳定的 DDP 静态图

DDP 静态图假设用户的模型在每次迭代中都使用相同的一组已使用 / 未使用的参数,因此它可以确定地了解相关状态,例如哪些钩子(hook)将触发、钩子将触发多少次以及第一次迭代后的梯度计算就绪顺序。

静态图在第一次迭代中缓存这些状态,因此它可以支持 DDP 在以往版本中无法支持的功能,例如无论是否有未使用的参数,在相同参数上支持多个激活检查点。当存在未使用的参数时,静态图功能也会应用性能优化,例如避免遍历图在每次迭代中搜索未使用的参数,并启用动态分桶(bucketing)顺序。DDP 静态图中的这些优化为一些推荐模型带来了 10% 的 QPS 增益。

要启用静态图,只需在 DDP API 中设置 static_graph=True ,如下代码所示:


ddp_model = DistributedDataParallel(model, static_graph=True)


PyTorch 1.11一些更新

在 Python API 方面:修复了 python deepcopy 以正确复制 Tensor 对象上的所有属性,此更改可确保 Tensor 上的 deepcopy 操作能正确复制所有属性(而不仅仅是普通的 Tensor 属性)。


在 torch.linspace 和 torch.logspace 中,steps 参数不再是可选的。此参数在 PyTorch 1.10.2 中默认为 100,但已被弃用。在 PyTorch 1.11 中,它不再是可选的。


在 CUDA 方面,删除了 THCeilDiv 函数和相应的 THC/THCDeviceUtils.cuh header;删除 THCudaCheck;删除 THCudaMalloc(), THCudaFree(), THCThrustAllocator.cuh。

添加复数支持 Adagrad 和 Adadelta 优化器;

添加 torch.nn.utils.rnn.{unpack_sequence,unpad_sequence}函数;

为 GPU 上的 CSR 张量添加了 torch.sparse.sampled_addmm;


基础设施支持:

添加了对 ROCm 4.3.1 的支持

添加了对 ROCm 4.5.2 的支持

添加了对 CUDA 11.5 的支持

添加了对启用 CUDA 的 Bazel 构建的支持

添加了对 Python 3.10 的支持


更多内容请参考:https://github.com/pytorch/pytorch/releases/tag/v1.11.0

网友评论

PyTorch 1.11 的发布,给用户带来了一些惊喜。有网友表示,我都转到 JAX 了,这波是要诱惑我回归 PyTorch 啊。


更有网友认为,PyTorch 1.11 将成为游戏改变者(game-changer)。


还有网友对首个 beta 版本的 functorch 库表示了肯定,有了它,终于补足了与 JAX 相比的一块短板。

相关文章
|
1天前
Python---random库
Python---random库
5 1
|
1天前
|
SQL 开发框架 .NET
Python---time库
Python---time库
9 2
Python---time库
|
1天前
|
数据采集 数据可视化 数据挖掘
利用Python和Pandas库优化数据分析流程
在当今数据驱动的时代,数据分析已成为企业和个人决策的重要依据。Python作为一种强大且易于上手的编程语言,配合Pandas这一功能丰富的数据处理库,极大地简化了数据分析的流程。本文将探讨如何利用Python和Pandas库进行高效的数据清洗、转换、聚合以及可视化,从而优化数据分析的流程,提高数据分析的效率和准确性。
|
1天前
|
Python
PyQt---------信号与槽函数的关系
PyQt---------信号与槽函数的关系
11 1
|
1天前
|
Python
Python闭包函数和计时器
本文介绍了闭包函数的概念,它允许内部函数引用外部作用域的变量但无法修改它们。示例展示了如何使用闭包来封装函数。接着,文章讨论了如何在函数调用时添加开始和结束的打印语句,通过传递函数作为参数实现。然后,文章引入装饰器,通过闭包定义了一个`timer`装饰器,用于在函数执行前后打印消息。最后,给出了一个练习,实现了一个计算函数执行时间的装饰器,处理了带有参数的被装饰函数。
12 1
|
1天前
|
Python
Python 内置正则表达式库re的使用
正则表达式是记录文本规则的代码,用于查找和处理符合特定规则的字符串。在Python中,常通过原生字符串`r'string'`表示。使用`re.compile()`创建正则对象,便于多次使用。匹配字符串有`match()`(从开头匹配)、`search()`(搜索首个匹配)和`findall()`(找所有匹配)。替换字符串用`sub()`,分割字符串则用`split()`。
15 3
|
1天前
|
Java Python
Python 内置库 多线程threading使用讲解
本文介绍Python中的线程基础。首先展示了单线程的基本使用,然后通过`threading`模块创建并运行多线程。示例中创建了两个线程执行不同任务,并使用`active_count()`和`enumerate()`检查线程状态。接着讨论了守护线程,主线程默认等待所有子线程完成,但可设置子线程为守护线程使其随主线程一同结束。`join()`方法用于主线程阻塞等待子线程执行完毕,而线程池能有效管理线程,减少频繁创建的开销,Python提供`ThreadPoolExecutor`进行线程池操作。最后提到了GIL(全局解释器锁),它是CPython的机制,限制了多线程并行执行的能力,可能导致性能下降。
12 1
|
1天前
|
数据可视化 数据挖掘 数据处理
Altair:Python数据可视化库的魅力之旅
Altair:Python数据可视化库的魅力之旅
11 0
|
1天前
|
测试技术 开发者 Python
Python检查函数和方法的输入/输出
【5月更文挑战第5天】Python检查函数和方法的输入/输出
13 1
|
1天前
|
机器学习/深度学习 数据挖掘 PyTorch
10个非常有用的Python库,你知道几个?
这些库覆盖了数据科学、机器学习、Web开发和其他领域,使Python成为一个多用途的编程语言。它们在各种项目和领域中都非常有用。
17 2
http://www.vxiaotou.com