单选题
1172.关于批量梯度下降(BatchGradientDescent),以下哪个说法是正确的?
A
它每次只使用一个样本进行参数更新
B
它使用全部样本进行一次参数更新
C
它使用部分样本进行参数更新
D
它对噪声数据非常鲁棒
答案解析
正确答案:B
解析:
题目解析:
题干考查的是对批量梯度下降(Batch Gradient Descent, BGD)算法基本原理的理解。
选项分析:
A:它每次只使用一个样本进行参数更新
该描述对应的是随机梯度下降(Stochastic Gradient Descent, SGD),而非批量梯度下降。在SGD中,每次迭代仅使用一个训练样本来计算梯度并更新模型参数。因此该选项错误。
B:它使用全部样本进行一次参数更新
这是正确的。批量梯度下降在每一次参数更新时,都会遍历整个训练数据集,计算所有样本的损失函数的平均梯度,然后据此更新模型参数。这种方式保证了梯度方向的准确性,但计算开销较大,尤其在数据集庞大时效率较低。因此该选项正确。
C:它使用部分样本进行参数更新
该描述对应的是小批量梯度下降(Mini-batch Gradient Descent)。Mini-batch方法折中了BGD和SGD的优点,每次使用一小批样本(如32、64、128个样本)来计算梯度并更新参数。而批量梯度下降使用的是全部样本,不是部分样本。因此该选项错误。
D:它对噪声数据非常鲁棒
实际上,批量梯度下降由于使用全部样本计算梯度,对整体数据分布敏感。如果训练数据中存在大量噪声或异常值,其梯度可能会被这些噪声影响,导致收敛方向偏差。相比之下,随机梯度下降由于每次更新具有随机性,反而可能跳出局部异常点,表现出一定的抗噪能力。因此该说法不准确,该选项错误。
核心知识点讲解:
批量梯度下降(Batch Gradient Descent)是梯度下降的一种基本形式,其核心思想是在每次迭代中:
1. 使用整个训练数据集计算损失函数的梯度;
2. 沿负梯度方向更新模型参数;
3. 重复上述过程直至收敛。
优点:
- 梯度方向准确,收敛稳定;
- 在凸误差曲面中可收敛到全局最小值。
缺点:
- 计算成本高,每轮迭代都需要遍历全部数据;
- 不适用于大规模数据集或在线学习场景;
- 更新频率低,训练速度慢。
总结:
正确答案为B,因为批量梯度下降在每次参数更新时使用全部训练样本计算梯度,这是其定义特征。其他选项分别对应于其他类型的梯度下降方法或具有误导性描述。
相关知识点:
批量梯度下降用全样本更新
题目纠错
人工智能训练师题库
相关题目
单选题
3679.均值滤波器可用于锐化图像边缘。
单选题
3678.中值滤波是一种边缘增强算子。
单选题
3677.灰度直方图能反映衣服图像个灰度级像元占图像的面积比。
单选题
3676.局部二值化方法中,每个区域的阈值相同。
单选题
3675.差分放大电路在静态分析时,需要把信号输入端断开。
单选题
3674.零漂引起的放大电路输出可以视为共模输出。
单选题
3673.滚动角、俯仰角和偏航角所进行的一系列连续旋转是相对于世界坐标系进行的,而不是相对于动坐标系进行的。
单选题
3672.当旋转运动R是相对于固定坐标系进行时,用R左乘相应的矩阵。
单选题
3671.齐次坐标提供了坐标系变换的有效方法,但仍然无法表示无穷远的点。
单选题
3670.为了完成所要求的变换,可以先绕x轴旋转,再沿着x,y和z轴平移,最后再绕y轴进行旋转,这个变换的顺序很重要,如果颠倒两个依次变化的顺序,结果将会完全不同。
