从零开始机器学习-基础单元

基础单元

linear unit: 线性单元

最简单的单元,输入和输出之间的关系是线性的。y = wx + b

sigmoid unit: sigmoid单元

获得s形曲线的一个函数,能将输入的值映射到0到1之间。\(\Large \sigma(x) = \frac{1}{1+e^{-x}}\)

问题:

  • 可能会导致梯度消失或者梯度爆炸

ReLU unit: ReLU单元(Rectified Linear Unit)

公式: \(f(x) = max(0, x)\)

GELU 激活函数

regular unit: 正则单元

参考 加入一些限制,防止模型过拟合

  • L0范数: 表示向量中非零元素的个数
    • 公式:\({\vert \vert x \vert \vert}_0=\mathbb{I}(i|x \neq 0)\)
  • L1范数: 可以导致稀疏
    • 公式:\({\vert \vert x \vert \vert}_1 = \sum^n_i \vert x \vert\)
  • L2范数: 可以导致稠密
    • 公式:\({\vert \vert x \vert \vert}_2 = (\sum^n_ix^2_i)^\frac{1}{2}\)
  • Dropout

如上图所示,蓝色的圆圈表示问题可能的解范围,橘色的表示正则项可能的解范围。而整个目标函数(原问题+正则项)有解当且仅当两个解范围相切。从上图可以很容易地看出,由于L2范数解范围是圆,所以相切的点有很大可能不在坐标轴上,而由于L1范数是菱形(顶点是凸出来的),其相切的点更可能在坐标轴上,而坐标轴上的点有一个特点,其只有一个坐标分量不为零,其他坐标分量为零,即是稀疏的。所以有如下结论,L1范数可以导致稀疏解,L2范数导致稠密解。

softmax unit: softmax单元

sigmoid单元的多分类版本,将输入的值映射到0到1之间,且所有输出的和为1。 这样就可以想多个分类进行概率排序。

\(\hat{\mathbf{y}} = \mathrm{softmax}(\mathbf{o})\quad \text{其中}\quad \hat{y}_j = \frac{\exp(o_j)}{\sum_k \exp(o_k)}\)

tanh unit: tanh单元

maxout unit: maxout单元

dropout unit: dropout单元

batch normalization unit: batch normalization单元

embedding unit: embedding单元

pooling unit: pooling单元

convolution unit: 卷积单元

loss function: 损失函数

activation function: 激活函数

optimizer: 优化器

gradient: 梯度

模型

MLP: 多层感知机

Multi-layer perceptron 是由多层全连接层组成的神经网络,每一层的输入都是上一层的输出,最后一层的输出就是网络的输出。

CNN: 卷积神经网络

RNN: 循环神经网络

LSTM: 长短期记忆网络

GRU: 门控循环单元

seq2seq: 序列到序列模型

高级模型

LDM/Latent Diffusion Model

resnet

transformer

参考:

Attention(注意力机制)

Q, K, V

Multi Head Attention(多头注意力)

GAN

BERT

GPT

Stable Diffusion

VAE

CLIP

  • MLP-RNN-seq2seq/编码器解码器架构-注意力机制-自注意力-transformer。
  • byte-pair encoding
  • TPU: tensor process unit
  • label smoothing:
  • BLEU score
  • PPL score:
  • logits:
  • 点乘:点乘的物理意义,两个向量的点乘表示两个向量的相似度
  • Model Perplexities
  • 残差连接
  • 正则化
    • l1正则化
    • l2正则化
  • ****Stable Diffusion****
  • 马尔可夫链
  • 对抗模型gan
  • 纳什均衡
  • 凸函数
  • kl散度