相关题目
单选题
BERT模型的主要创新点都在pre-train方法上,即用了()和()两种方法分别捕捉词语和句子级别的representation。
单选题
Transformer的提出解决了上面两个问题,首先它使用了Attention机制,将序列中的任意两个位置之间的距离缩小为一个();其次它不无需依次输入序列信息,因此具有更好的(),符合现有的GPU框架。
单选题
考虑到RNN(或者LSTM,GRU等)类模型只能从()依次计算或者从()依次计算,带来了一定的局限性
单选题
word2vec包含两个经典模型:()和()
单选题
分布式表示:wordembedding指的是将词转化成一种分布式表示,又称()。分布式表示将词表示成一个()的连续的稠密向量。
单选题
NLP中字、词的one-hot表示:把每个词表示为一个长向量。这个向量的维度是词表大小,向量中只有一个维度的值为(),其余维度为(),这个维度就代表了当前的词。
单选题
在自然语言处理任务中,首先需要考虑字、词如何在计算机中表示。通常,有两种表示方式:()表示和()表示
单选题
机器学习中评价指标有哪些()
单选题
降维的重要特征提取技术()
单选题
模型压缩的主要方法有哪些?
