sherlcok314159/ML

You have to be logged in to leave a comment.

词嵌入

章节

词嵌入概述
skip-gram
CBOW
Negative Sample
GloVe
ELMo
参考文献

词嵌入概述

深度学习任务中，我们不能直接将词语送入模型，我们需要将其转换为数值矩阵。常见的问题是如何以较低维度的矩阵来表示词从而减少运输量；在转换为数值之后仍然保留不同词之间的相关性；同词不同场景的情况如何表示；如何使得出现频率不同的词都能得到较好的训练等等

这篇词嵌入会具体梳理前辈中做的工作以及目前的主流操作，以原理为主，因大多数已渐被取代且预训练不易（需要大量数据集），不切入代码实践

skip-gram

先介绍one-hot（独热编码）为什么在NLP中不大能胜任，我们不仅需要将词转换为矩阵，而且还要保持不同词之间的关系，比如余弦相似度：

而不同的单词用one-hot做内积之后结果均为0，这样就会丧失词之间的关系

skip-gram就是选出中心词来预测其他词出现在它周围的概率，例如，一个句子是"the man loves his car."，假设"loves"是中心词，引入一个context window的概念，即为周围两侧覆盖的范围，若为2，那么左侧的"the man"和右侧"his car"都会被覆盖到。P(the,man,his,car|loves)意为当中心词为"loves"，那么在context window范围内，它周围词为这些的概率

假设 $w_i,w_c$ 分别代表context word和central word（文本词与中心词）以及 $u_i,v_c$ 代表它们所被表示成的向量， $\mathcal{V}$ 代表词表内单词的数量，那么给定中心词，任意文本词作为它邻居的概率其实是softmax：

那么给定一个长度为T，t为每一个时间步，m是context window的大小，那么，将所有概率相乘，并且每一个词都可以作为文本词和中心词，这就意味着每一个词有二维向量，分别对应不同的场景，即为：

例如，句子长度为5，m为2，句子仍为"the man loves his car"，在第一个时间步时：

对于时间步小于1和大于T的不予考虑，另外对自身不做softmax概率，那么 $P(w^2|w^1),P(w^3|w^1)$ 分别代表man，loves从the中生成的概率，在不同时间步上中心词都不同。

极大似然概率被用于训练skip-gram，SGD常用于skip-gram的参数更新

联系上面 $P(w_i|w_c)$ 的定义（注意其实w的上标和下标并没有本质区别，上标只是为了更清楚地表示时间步而已）可以得到：

接下来我们求 $v_c$ 的梯度（其实分子和分母的下标应该是一致的，这里处理不是为了分子分母同除，为了区分，所以采用不同下标）：

CBOW

其实CBOW和skip-gram最大的不同是前者是由中心词产生周围邻居，而CBOW恰恰相反，由周围词产生中心词。继续上面的例子，"the man loves his car"，那么对应的中心词概率为P(loves|the,man,his,car)

因为中心词数量过多，这里平均处理，相对应的softmax概率即为：

为了简便，记 $\mathcal{W}_0=\{w_{o1},\dots,w_{o2m}\}$ ， $\bar{\mathbf{v}}_o=(v_{o1}+\dots+v_{o2m})/(2m)$

所以上面的式子简化为

所以，在给定时间步长T下（同skip-gram）：

那么，极大似然概率为

联系上面的式子，进行简化：

计算 $\bar{\mathbf{v}}_{oi}$ 的梯度

不难发现，当需要求一个参数的梯度时，skip-gram和CBOW都需要将整个词表乘一遍，当词表很大的时候，计算会非常耗时

Negative Sample

为了解决skip-gram和CBOW都会遍历词表，复杂度为 $\mathbf{O}(n)$ ，一个方法是hierarchical softmax，它是通过哈夫曼树让复杂度降至 $\mathbf{O}(logn)$ ，但较为复杂而且也不是普遍应用，这里忽略，详细介绍另一种方法Negative Sampling，下方简写为NS

NS其实是符合直觉的，一开始是遍历整个词表，那么有没有可能遍历从词表中取样出来的小样本呢？不断学习，不就间接上等于把词表整个遍历了吗？

这里用skip-gram为例，CBOW和它差不多，假设给定一个句子， $w_c,w_o$ 分别代表中心词和句子中出现的词， $v_c,u_o$ 分别代表它们被表示成的向量，P(D=1)代表正样本，即为 $w_o$ 出现在中心词的context window里

那么，在给定时间步上， $w^t$ 代表不同时间步时的中心词

我们取对数处理

意味着我们希望不同的中心词时，邻居出现在它context window的可能性尽可能大，还是"the man loves his car"，这次假设context window大小为1，那么当t=1时，则希望在所有词中"man"出现在它旁边的概率最大，以此类推，t=2，则希望"the"，"loves"出现在"man"周围的概率最大等等

负采样的意思是不仅要让所有在context window里的正样本概率变大，同时从不在window里的词中采样 $\mathcal{K}$ 个词作为噪声词，然后把两个样本概率相乘，记 $P(w)$ 为负样本采样时的分布， $w_k$ 为噪声词