从零开始机器学习-基础单元
基础单元
linear unit: 线性单元
最简单的单元,输入和输出之间的关系是线性的。y = wx + b
sigmoid unit: sigmoid单元
获得s形曲线的一个函数,能将输入的值映射到0到1之间。\(\Large \sigma(x) = \frac{1}{1+e^{-x}}\)
问题:
- 可能会导致梯度消失或者梯度爆炸
ReLU unit: ReLU单元(Rectified Linear Unit)
公式: \(f(x) = max(0, x)\)
GELU 激活函数
regular unit: 正则单元
参考 加入一些限制,防止模型过拟合
- L0范数: 表示向量中非零元素的个数
- 公式:\({\vert \vert x \vert \vert}_0=\mathbb{I}(i|x \neq 0)\)
- L1范数: 可以导致稀疏
- 公式:\({\vert \vert x \vert \vert}_1 = \sum^n_i \vert x \vert\)
- L2范数: 可以导致稠密
- 公式:\({\vert \vert x \vert \vert}_2 = (\sum^n_ix^2_i)^\frac{1}{2}\)
- Dropout
如上图所示,蓝色的圆圈表示问题可能的解范围,橘色的表示正则项可能的解范围。而整个目标函数(原问题+正则项)有解当且仅当两个解范围相切。从上图可以很容易地看出,由于L2范数解范围是圆,所以相切的点有很大可能不在坐标轴上,而由于L1范数是菱形(顶点是凸出来的),其相切的点更可能在坐标轴上,而坐标轴上的点有一个特点,其只有一个坐标分量不为零,其他坐标分量为零,即是稀疏的。所以有如下结论,L1范数可以导致稀疏解,L2范数导致稠密解。
softmax unit: softmax单元
sigmoid单元的多分类版本,将输入的值映射到0到1之间,且所有输出的和为1。 这样就可以想多个分类进行概率排序。
\(\hat{\mathbf{y}} = \mathrm{softmax}(\mathbf{o})\quad \text{其中}\quad \hat{y}_j = \frac{\exp(o_j)}{\sum_k \exp(o_k)}\)
tanh unit: tanh单元
maxout unit: maxout单元
dropout unit: dropout单元
batch normalization unit: batch normalization单元
embedding unit: embedding单元
pooling unit: pooling单元
convolution unit: 卷积单元
loss function: 损失函数
activation function: 激活函数
optimizer: 优化器
gradient: 梯度
模型
MLP: 多层感知机
Multi-layer perceptron 是由多层全连接层组成的神经网络,每一层的输入都是上一层的输出,最后一层的输出就是网络的输出。
CNN: 卷积神经网络
RNN: 循环神经网络
LSTM: 长短期记忆网络
GRU: 门控循环单元
seq2seq: 序列到序列模型
高级模型
LDM/Latent Diffusion Model
resnet
transformer
参考:
- https://www.youtube.com/watch?v=ugWDIIOHtPA&t=835s
- https://jalammar.github.io/illustrated-transformer/
- https://zhuanlan.zhihu.com/p/338817680
- https://zhuanlan.zhihu.com/p/82312421
Attention(注意力机制)
Q, K, V
Multi Head Attention(多头注意力)
GAN
BERT
GPT
Stable Diffusion
VAE
CLIP
- MLP-RNN-seq2seq/编码器解码器架构-注意力机制-自注意力-transformer。
- byte-pair encoding
- TPU: tensor process unit
- label smoothing:
- BLEU score
- PPL score:
- logits:
- 点乘:点乘的物理意义,两个向量的点乘表示两个向量的相似度
- Model Perplexities
- 残差连接
- 正则化
- l1正则化
- l2正则化
- ****Stable Diffusion****
- 马尔可夫链
- 对抗模型gan
- 纳什均衡
- 凸函数
- kl散度