单选题
1153.在循环神经网络(RNN)中,以下哪个问题容易导致梯度消失或梯度爆炸?
A
输入数据的维度过大
B
网络层数过多
C
时间序列过长
D
激活函数选择不当
答案解析
正确答案:D
解析:
答案解析:
正确答案是:C
题目考查的是循环神经网络(RNN)中导致梯度消失或梯度爆炸问题的主要原因。
逐项分析选项:
A:输入数据的维度过大
输入数据维度高可能增加模型复杂度和计算负担,但并不直接导致梯度消失或梯度爆炸。该因素更多影响模型训练效率或过拟合风险,而非梯度传播的根本问题。因此不是主要原因。
B:网络层数过多
虽然深层前馈网络中层数过多可能导致梯度消失或爆炸,但在RNN中,网络在时间维度上的展开才是关键。RNN本质上是按时间步展开的链式结构,其深度由序列长度决定,而不是传统意义上的“层”。因此,此处“网络层数”表述容易引起误解,实际影响梯度的是时间步的数量,而非静态的网络层数。故此项不准确。
C:时间序列过长
这是正确答案。RNN在处理长序列时,通过时间反向传播(Backpropagation Through Time, BPTT)进行梯度计算。当时间序列过长时,梯度需要在多个时间步上连续相乘传递。由于递归结构中的权重矩阵反复相乘,若其特征值小于1,梯度会指数级衰减(梯度消失);若大于1,则会指数级增长(梯度爆炸)。因此,时间序列过长是导致RNN中梯度问题的根本原因。
D:激活函数选择不当
虽然激活函数的选择有一定影响,例如使用Sigmoid或tanh等饱和激活函数会加剧梯度消失(因其导数在两端趋近于0),但这只是加剧因素,而非根本机制。即使改进激活函数(如使用ReLU),在极长时间序列下仍可能出现梯度问题。相比之下,时间序列长度才是结构性原因。因此该项虽相关,但不是最本质的原因。
核心知识点讲解:
梯度消失与梯度爆炸是RNN训练中的经典问题,根源在于BPTT过程中链式法则导致的连乘效应。设RNN在每个时间步的隐藏状态为 h_t = σ(W h_{t-1} + U x_t),则损失对初始隐藏状态的梯度涉及 ∂h_t / ∂h_{t-k} 的连乘形式,即多个雅可比矩阵的乘积。若这些矩阵的谱半径小于1,梯度随时间步数指数衰减;反之则爆炸。
因此,时间序列越长,这种连乘效应越显著,导致早期时间步的信息难以有效传递,表现为模型无法捕捉长期依赖。
总结:
本题正确答案应为 C:时间序列过长。
尽管D选项(激活函数选择不当)在一定程度上影响梯度稳定性,但梯度消失/爆炸的根本原因是RNN在长序列上传播梯度时的数学结构特性,即时间序列过长导致的连乘效应。因此,C 是最准确、最本质的答案。
原提供答案 D 错误,正确答案应为 C。
相关知识点:
RNN问题:或因激活函数
题目纠错
人工智能训练师题库
相关题目
单选题
3698.机器人的结构应使得诸如绝缘、内部布线、绕组、整流子和滑环之类的部件不会与油、油脂或类似的物质相接触。即使这些物质已具有足够的绝缘性能,按照国家标准也不能接触。
单选题
3697.服务机器人应考虑长期使用时某些绝缘材料的电气性能和机械性能可能会长期受到不利的影响。
单选题
3696.物联网的数据处理技术主要是实现数据的存储、处理、分析、决策与高效应用。
单选题
3695.物联网就是一个将所有物体连接起来所组成的物—物相连的互联网络。
单选题
3694.ZigBee无线通信技术属于物联网短距离无线通信技术。
单选题
3693.物联网感知层的关键技术就是传感器技术。
单选题
3692.物联网信息安全是指物联网系统的硬件、软件及数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,信息服务不中断。不包括用户的人身安全。
单选题
3691.机器视觉系统可以快速获取大量信息,虽难于自动处理,但易于同设计信息以及加工控制信息集成。
单选题
3690.初级视觉是光学成像问题的逆问题,它由一系列能从二维光强度恢复三维可见物体表面的处理过程组成。
单选题
3689.一个坐标系可以通过参考坐标系相对某一坐标轴的基本旋转得到。规定相对于坐标轴旋转的逆时针方向,为旋转的正方向。
