相关题目
单选题
对于Word2vec的2个基础算法,每次()更新只能优化一个向量且softmax里的指数求和操作计算量太大,一般使用比较高效的()算法。
单选题
Embedding编码有哪些特点?
单选题
One-hot独热编码有哪些特点?
单选题
神经元分为三种不同类型的层次:
单选题
BERT模型的主要创新点都在pre-train方法上,即用了()和()两种方法分别捕捉词语和句子级别的representation。
单选题
Transformer的提出解决了上面两个问题,首先它使用了Attention机制,将序列中的任意两个位置之间的距离缩小为一个();其次它不无需依次输入序列信息,因此具有更好的(),符合现有的GPU框架。
单选题
考虑到RNN(或者LSTM,GRU等)类模型只能从()依次计算或者从()依次计算,带来了一定的局限性
单选题
word2vec包含两个经典模型:()和()
单选题
分布式表示:wordembedding指的是将词转化成一种分布式表示,又称()。分布式表示将词表示成一个()的连续的稠密向量。
单选题
NLP中字、词的one-hot表示:把每个词表示为一个长向量。这个向量的维度是词表大小,向量中只有一个维度的值为(),其余维度为(),这个维度就代表了当前的词。
