7.通过与环境交互、接受奖惩信号不断学习提高的机器学习算法是( )。(2019年中国银行秋招真题)

　强化学习

　动态学习

　深度学习

　迁移学习

答案解析

正确答案：A

解析：

解析:A 项，强化学习又称再励学习、评价学习或增强学习，是智能体（Agent）以“试
错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得
最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强
化学习中由环境提供的强化信号是对产生动作的好坏做一种评价（通常为标量信号），
而不是告诉强化学习系统 RLS(Reinforcement learning System）如何去产生正确的动作。
B 项，动态学习是一个动态的思维方式，目的是发现、组合、交流、创造动态信息。C 项，
深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文
字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有
分析学习能力，能够识别文字、图像和声音等数据。D 项，迁移学习是一种机器学习方
法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。
遇到小规模数据问题时，我们没有办法使用足够的数据基于深度学习方法训练出一个可
以很好解决问题的模型，迁移学习可以找一个有些许关联（当然也有差异）的另一个已
有足够数据的问题，利用这个问题的数据建立一个模型，再结合两个问题的关联，就可
以将这个模型迁移到我们需要解决的问题上。故选 A 项。

实战刷题（计算机专业知识）

扫码进入小程序
随时随地练习

7.通过与环境交互、接受奖惩信号不断学习提高的机器学习算法是( )。(2019年中国银行秋招真题)

答案解析

相关题目

选择练习分段

选择练习章节

组卷设置

考试记录