从零开始机器学习-基础模型
模型
MLP(Multi Layer Perceptron): 多层感知机
Multi-layer perceptron 是由多层全连接层组成的神经网络,每一层的输入都是上一层的输出,最后一层的输出就是网络的输出。 ## CNN: 卷积神经网络
图像中,如果将每一个像素点作为一个特征,那么图像的特征就会非常多,这样会导致计算量非常大,而且容易过拟合,所以需要对图像进行降维,而且相邻的像素往往是有关联的。这就是卷积的作用.
卷积层:
- 卷积核
- 步长
- 填充
RNN: 循环神经网络
对于需要记忆,或者需要考虑上下文的问题,使用RNN会比较合适。
GRU: 门控循环单元
seq2seq: 序列到序列模型
高级模型
LDM/Latent Diffusion Model
resnet
transformer
结构:编码器-解码器架构
编码器:由多个编码层组成,每个编码层由多头注意力层和前馈层组成。 解码器:由多个解码层组成,每个解码层由多头注意力层,编码-解码注意力层和前馈层组成。
注意力机制:将输入的序列映射到一个新的序列,新的序列中的每个元素都是输入序列中所有元素的加权平均值。
GAN
BERT
GPT
Stable Diffusion
VAE
CLIP
- MLP-RNN-seq2seq/编码器解码器架构-注意力机制-自注意力-transformer。
- byte-pair encoding
- TPU: tensor process unit
- label smoothing:
- BLEU score
- PPL score:
- logits:
- 点乘:点乘的物理意义,两个向量的点乘表示两个向量的相似度
- Model Perplexities
- 残差连接
- 正则化
- l1正则化
- l2正则化
- ****Stable Diffusion****
- 马尔可夫链
- 对抗模型gan
- 纳什均衡
- 凸函数
- kl散度