数学符号 | 一般含义 | 其他说明 |
---|---|---|
N, K, k, n | 一般指代数目、数量 | 不排除奇葩用法 |
epoch, iteration | epoch->遍历(随机或不随机)一遍数据集 iteration -> 训练一个批次batch |
代码里也可能把若干次iteration算一个epoch |
D是整个数据集,大写代表数据集,粗体代表向量、矩阵、张量(后面内容我都不用粗体) | 我不知道中间字体的学名叫什么 tex里写作 \matchcal | |
label, unlabel, |
有标签、无标签数据集, 应该主要是半监督学习才区分 | |
一般是指某分布, x的分布, D(data)数据的“真实”分布 | ||
$P(y | x), p(y=\text{"car"} | x)$ |
都常用作模型参数, weight->w | ||
|
h(hidden) 某隐藏层输出,但也常作为 提取的特征(feature->hidden representation) 一般分类器 $h \rightarrow 最后一层W \rightarrow z \text(logits) \rightarrow \text{softmax} \rightarrow p(y |
x)$ |
x是输入, f就是带参数$\theta$的模型(比如神经网络)有些输出是概率向量, 有些只代表是特征提取部分$h=f_\theta(x)$, 代表某部分模型, 都可以 | ||
生成模型比如GAN里就是生成器(generator), 如果$f$ 已经用了, 也常用作普通的神经网络(比如SimCLR它们的projector就用$g$) | ||
$z, p_\theta(x | z)$ | 生成模型里, 这个 |
一般变分用的新概率分布, 换一个分布代替原本intractable的$p()$ | ||
|
范数, 默认 Frobenius范数(一般API是这个, 理解时就当成是向量的$L_2$范数, 矩阵范数相对不好理解、一般也都是当向量用), p=2 -> 模长、欧氏距离, 平方和开方 p=$\infty$ 元素绝对值中的最大值 p=1, 元素绝对值之和 p=0, 非零元素个数 |
|
这里是分布间的距离, KL散度距离, JS散度距离, 欧氏距离很少见写成这种符号形式 | ||
均匀分布、高斯分布及其他分布, 采样 | ||
$\mathbb{E}[ f(x)],\mathbb{E}q, \mathbb{E}{t\sim q(x)}$ | 期望, 某个分布(q)的 f函数期望 | 也有写成实体 |
|
|
|
向量内积 和 余弦相似度 | ||
MLE 最大似然估计 maximize likelihood estimation |