从零开始机器学习-基础模型

模型

MLP(Multi Layer Perceptron): 多层感知机

Multi-layer perceptron 是由多层全连接层组成的神经网络,每一层的输入都是上一层的输出,最后一层的输出就是网络的输出。 ## CNN: 卷积神经网络

图像中,如果将每一个像素点作为一个特征,那么图像的特征就会非常多,这样会导致计算量非常大,而且容易过拟合,所以需要对图像进行降维,而且相邻的像素往往是有关联的。这就是卷积的作用.

卷积层:

  • 卷积核
  • 步长
  • 填充

RNN: 循环神经网络

对于需要记忆,或者需要考虑上下文的问题,使用RNN会比较合适。

GRU: 门控循环单元

seq2seq: 序列到序列模型

高级模型

LDM/Latent Diffusion Model

resnet

transformer

结构:编码器-解码器架构

编码器:由多个编码层组成,每个编码层由多头注意力层和前馈层组成。 解码器:由多个解码层组成,每个解码层由多头注意力层,编码-解码注意力层和前馈层组成。

注意力机制:将输入的序列映射到一个新的序列,新的序列中的每个元素都是输入序列中所有元素的加权平均值。

GAN

BERT

GPT

Stable Diffusion

VAE

CLIP

  • MLP-RNN-seq2seq/编码器解码器架构-注意力机制-自注意力-transformer。
  • byte-pair encoding
  • TPU: tensor process unit
  • label smoothing:
  • BLEU score
  • PPL score:
  • logits:
  • 点乘:点乘的物理意义,两个向量的点乘表示两个向量的相似度
  • Model Perplexities
  • 残差连接
  • 正则化
    • l1正则化
    • l2正则化
  • ****Stable Diffusion****
  • 马尔可夫链
  • 对抗模型gan
  • 纳什均衡
  • 凸函数
  • kl散度