在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题（）

增加训练集量$;$减少神经网络隐藏层节点数$;$删除稀疏的特征$;$SVM算法中使用高斯核/RBF核代替线性核

正确答案：D

随便搞的题库做做

扫码进入小程序
随时随地练习

常见的循环神经网络结构包括（）

与浅层神经网络相比，深度学习的不同在于（）和（）。

（）类型的数据集不适合用深度学习？

深度学习的训练过程包括：自下而上的（）和自顶向下的（）。

对于Word2vec的2个基础算法，每次（）更新只能优化一个向量且softmax里的指数求和操作计算量太大，一般使用比较高效的（）算法。

Embedding编码有哪些特点？

One-hot独热编码有哪些特点？

神经元分为三种不同类型的层次：

BERT模型的主要创新点都在pre-train方法上，即用了（）和（）两种方法分别捕捉词语和句子级别的representation。

Transformer的提出解决了上面两个问题，首先它使用了Attention机制，将序列中的任意两个位置之间的距离缩小为一个（）；其次它不无需依次输入序列信息，因此具有更好的（），符合现有的GPU框架。