Google Colab 免费 Tesla T4 体验 - 文章 - 开发者社区

picture.image

“ 斗地主。打土豪。分田地。无产阶级联合起来，薅资本主义羊毛去！”

如果你正在为手头缺 GPU 做模型训练而发愁，如果你的低端卡只能跑跑小数据调调小模型搭搭 demo，如果你公司的 GPU 服务器上提交的任务还在排队而看不到希望，那么福音来了，Google 云将为你免费提供 Nvidia 最新款 GPU——图灵架构、16 GB 显存、带 Tensor Core 加速、性能最高达 260 TOPS 的 Tesla T4！只需动动手指，点击鼠标，浏览器里面就能操作，老少咸宜，童叟无欺，货真价实！

—

Tesla T4 简介

去年 GTC 2018 图形技术大会日本站，NVIDIA 发布了一款新的计算卡 Tesla T4，这是首款采用和 RTX 20 系列游戏卡一样的 Turing 图灵架构的计算卡，和上一代 Tesla P4 类似，采用半高半长 PCIe 插卡形式，全覆盖金属外壳被动散热，最大功耗为 70W，无需辅助供电。因为面向计算领域而没有视频输出接口（所以不能用来打游戏）。

Tesla T4 搭配 Tensor RT 软件，主要面向 AI 应用，包括智能语音、翻译、视频、图像、推荐等应用领域。配备了 2560 个图灵架构 CUDA 核心，同时集成 320 个 Tensor 推理核心。性能方面，FP32单精度浮点计算性能 8.1 TFlops(每秒8.1万亿次)，FP16/32 半精度和单精度混合计算性能 65 TFlops，INT8、INT4 整数计算性能则是 130Tops、260Tops。显存搭配 16GB GDDR6，双倍于上一代 Tesla P4。

T4 数据手册【1】：

picture.image

作为对比，贴出上一代 Tesla P4 数据手册：

picture.image

—

Google Colab 中使用 T4

Google Colab【2】全称 Colaboratory，是一个免费的云端 Jupyter notebook 环境，无需繁杂的配置步骤，实现开箱即用。

使用 Colab 可以完全基于浏览器编写、运行代码，保存、分享你的运行过程，还能获取强大计算能力的免费硬件（GPU、TPU），大大简化了学习过程。

快速上手 Step by Step：

访问 Colab 官网【2】，新建一个 Python3 notebook，点击“Edit” -> “Notebook settings”，如下图所示：

picture.image

在“Hardware accelerator” 选择“GPU”，如下图所示：

picture.image

保存后，在 notebook 中运行如下命令查看 GPU 设备信息：

picture.image

注：! 开头的命令，都会用 shell 解释执行。否则使用 Python3 解释执行。

可以从上述输出结果看到 GPU Name 为 Tesla T4，说明我们已经申请到了免费 T4 资源！可以放心大胆的用了。

从上述输出结果还能看到驱动版本为 410.79，支持的 CUDA 版本最高为 10.0，GPU 目前利用率（GPU-Util）为 0%，表示空闲。当前板卡温度为 67 摄氏度（没跑任务，不知为毛这么高），显存占用为 0 MB。

运行以下代码将 Google Drive 挂载到 /content/drive/：

picture.image

从 df -h 输出可以看到已经挂载了 15 GB 的 Google Drive。使用 Google Drive 的好处是可以将结果持久化保存，因为 Colab 环境是共享的，一旦被释放，所有本地修改都会被清空，Google Drive 是个人网盘，可以持久化保存私有的文件。我们当前正在编辑和运行的笔记 manman.ipynb 也位于 Google Drive，默认位置为 /content/drive/My Drive/Colab Notebooks/。

—

使用 T4 运行 BERT Finetuning

Notebook 已经内置了 TensorFlow，当前版本为 1.13.1，如下图所示：

picture.image

我们可以直接在 Notebook 中运行 TensorFlow 程序。

BERT【3】是去年 Google 推出的横扫各大 NLP 比赛的模型，和前文《GPT-2：与世界分享你刚编的故事》介绍的 GPT 类似，都是 Pretrain + Finetuning 模式，网络基本构成单元都是 Transformer Cell。

picture.image

BERT 使用双向 Transformer 作为特征提取器，而 GPT、GPT-2 均为单向 Transformer。除此之外架构上基本相同。GPT 提供了预训练模型，训练代码并未公开，BERT 预训练模型和训练代码均已公开。

这里以 BERT【3】 Finetuning 为例，任务为 SQuAD v1.1，模型使用 chinese_L-12_H-768_A-12。BERT 非常耗显存，Tesla T4 16 GB 显存在这里可以大显身手。

picture.image

运行日志中可以看到 TensorFlow 使用了 Tesla T4 作为执行设备：

picture.image

T4 上的训练速度大约每秒 9.7 examples，如下图所示：

picture.image

BERT 官方的代码实现并没有充分利用 Tensor Core 加速。Nvidia 优化过的版本需要使用 NGC 镜像（参考上一篇文章《在个人电脑上搭建 Nvidia GPU Cloud(NGC) 环境》）， Google Colab 能否运行 NGC 镜像？待研究。

—

小结

以上介绍了薅 Google 羊毛的方式。基于 Colab 可以实现开箱即用，用完即走，完全免费，造福广大无产阶级。

使用过程中还是发现了一些小的问题。比如 Google 监测到用户交互界面空闲一段时间后会自动回收资源，之前的环境可能会被清理掉；前台运行训练时，无法有效监控 GPU 状态；无法使用多卡并行训练；TensorBoard 设置也比较繁琐。不过瑕不掩瑜，希望 Google 继续完善相应功能，让用户体验进一步提升，让模型设计和训练更加快捷方便。

关注公众号“慢慢学 TensorFlow”，后台回复“Colab”获取本文实践部分的完整笔记。

【1】Nvidia Tesla T4：https://www.nvidia.cn/data-center/tesla-t4/

【2】Google Colab：https://colab.research.google.com

【3】BERT：https://github.com/google-research/bert

picture.image