深度神经网络的运行过程是由三个算法依次运行组成，下面不属于这三个算法中的是

归一化$;$正向传播$;$反向传播$;$梯度下降

正确答案：A

随便搞的题库做做

扫码进入小程序
随时随地练习

对于Word2vec的2个基础算法，每次（）更新只能优化一个向量且softmax里的指数求和操作计算量太大，一般使用比较高效的（）算法。

Embedding编码有哪些特点？

One-hot独热编码有哪些特点？

神经元分为三种不同类型的层次：

BERT模型的主要创新点都在pre-train方法上，即用了（）和（）两种方法分别捕捉词语和句子级别的representation。

Transformer的提出解决了上面两个问题，首先它使用了Attention机制，将序列中的任意两个位置之间的距离缩小为一个（）；其次它不无需依次输入序列信息，因此具有更好的（），符合现有的GPU框架。

考虑到RNN（或者LSTM，GRU等）类模型只能从()依次计算或者从()依次计算，带来了一定的局限性

word2vec包含两个经典模型：()和()

分布式表示：wordembedding指的是将词转化成一种分布式表示，又称（）。分布式表示将词表示成一个（）的连续的稠密向量。

NLP中字、词的one-hot表示:把每个词表示为一个长向量。这个向量的维度是词表大小，向量中只有一个维度的值为（），其余维度为（），这个维度就代表了当前的词。