Where is the vector in word2vec-CBOW?

本周看的一篇论文,Incremental Dual-memory LSTM in Land Cover Prediction 中有提到使用了 word2vec 中的 CBOW 模型,进行标签序列的向量化,从而将标签序列信息加入到 LSTM 中。为此去理解 word2vec 中的 CBOW 模型。

CBOW 模型是 word2vec 的一种,用来建立词语的向量表示。CBOW 模型的输入为一个句子,扣除了其中一个单词的剩余其他词汇。之后用这几个上下文的词汇对扣去的词汇进行预测。整体效果如图所示

TIM截图20170902172413.png

可以发现,CBOW 模型,更像是用来根据上下文进行单词的推断。那么我们之前不是说 word2vec 是用来将单词转化为向量的么,为什么这里就变成了单词推断?

实质上,单词推断只是 CBOW 模型的伪任务。我们想得到的是在推断运算过程中的那个权重矩阵,而不是最后推断出的单词。最后推断出的单词,只是帮助我们进行损失计算,从而反向传播进行调参的。

TIM截图20170902173335.png

左侧是 one-hot 类型的输入词向量,之后紧跟的矩阵,就是我们想要的词向量矩阵。包括 skip-gram 模型的词向量矩阵也是同理。

有任何不对的地方,希望各位老师同学指正,谢谢!