deeplearning
未读colab代码如何合理使用资源
P100 usage is 4units/hr,
V100 usage is 5 units/hr,
A100 usage is 13.08units/hr
将训练过后的模型日志和其他重要的文件保存到谷歌云盘,而不是本地的实例空间
运行的代码必须支持“断点续传”能力,简单来说就是必须定义类似checkpoint功能的函数;假设我们一共需要训练40个epochs,在第30个epoch掉线了之后模型能够从第30个epoch开始训练而不是从头再来
仅在模型训练时开启GPU模式,在构建模型或其他非必要情况下使用None模式
在网络稳定的情况下开始训练,每隔一段时间查看一下训练的情况
注册多个免费的谷歌账号交替使用
使用key12345from google.colab import userdata# Defined in the secrets tab in Google ColabHF_TOKEN = userdata.get('HF_TOKEN')print(HF_TOKEN)
...
deeplearning
未读Transformer 模型
使用pytorch从0构建Transformer
Transformer结构图:
Transformer是一种序列到序列的模型。它通过自注意力机制并行处理整个序列。这种机制使模型能够同时考虑序列中的所有元素,并学习上下文之间的关系。
Transformer的架构包括编码器和解码器部分,每部分都由多个相同的层组成。这些层包含自注意力机制和前馈神经网络,加上归一化和Dropout步骤。
123456789# 导入必要的包和函数import math import torchimport torch.nn as nnfrom labml_helpers.module import Module from labml_nn.utils import clone_module_list from typing import Optional,Listfrom torch.utils.data import DataLoader,TensorDataset from torch import optimimport torch.nn.functional as ...
deeplearning
未读deeplearning
未读Tensor and Pytorch
张量维度是深度学习框架基础,同时是后续维度变换基础;抛去物理学的时间角度,用纯空间的角度理解张量维度;高维张量由低维张量堆叠而成。
torch.size(2,3,3) –> 这个结果是从最后一位看到前面的,最里面的代表list的length
tensor = 0
tensor = 1
tensor = 2
tensor = 3
tensor = 4
tensor = 5
1. torch.unsqueeze 详解1torch.unsqueeze(input, dim, out=None)
作用:扩展维度
返回一个新的张量,对输入的既定位置插入维度 1
注意: 返回张量与输入张量共享内存,所以改变其中一个的内容会改变另一个。
如果dim为负,则将会被转化dim+input.dim()+1
参数:
tensor (Tensor) – 输入张量
dim (int) – 插入维度的索引
out (Tensor, optional) – 结果张量
12 ...

