多选题
下列关于梯度消失和梯度爆炸的说法正确的有()。
A
根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0
B
可以采用ReLU激活函数有效地解决梯度消失的情况
C
根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大
D
可以通过减小初始权重矩阵的值来缓解梯度爆炸
答案解析
正确答案:ABCD
解析:
使用标准化初始w,那么各个层次的相乘都是0~1的小数,而激活函数f的导数也是0~1的数,其连乘后,结果会变得很小,导致梯度消失。若我们初始化的w是很大的数,w大到乘以激活函数的导数都大于1,那么连乘后,可能会导致求导的结果很大,形成梯度爆炸。
题目纠错
相关题目
单选题
下列关于异常说法正确的是()。
单选题
已知列表对象x=['11',2','3],则表达式max(x,key=len)的值为()。
单选题
在Python中,函数()。
单选题
运行下面程序,输出的结果是()。
def chanageInt number2):
number2=number2+1
print ("changeInt:number2=",number2)
#调用
numberl=2;ChanageInt (number1)
print ("number:"number1)
单选题
可变参数*args传入函数时存储的类型是()。
单选题
下列关于函数的参数的描述错误的是()。
单选题
下列关于函数的关键字参数使用限制的描述错误的是()。
单选题
下列关于Python的全局变量和局部变量的描述错误的是()。
单选题
下列关于Python的lambda()函数的描述错误的是()。
单选题
假设已从标准库functools导入reduce()函数,那么表达式reduce(lambda x,y:x+y,[1,2,3])的值为()。
