275、【单选题 #5】强化学习使用机器的个人历史和经验来做出决定,其经典应用是( )。
答案解析
相关题目
310、【单选题 #7】在基于模型的强化学习中,智能体使用环境的( )来帮助解释奖励信号,并决定如何行动。
309、【单选题 #7】一般而言,( )是通过对数据进行分析,找到数据的表达模型,随后利用该模型,在新输入的数据上进行决策。
308、【单选题 #7】强化学习和监督学习的共同点是两者都需要大量的( )进行学习训练,但两者的学习方式不尽相同,两者所需的数据类型也有差异。
307、【单选题 #7】( )是根据当前的状态而决定下一个时刻施加到环境上去的最好动作。
306、【单选题 #7】在强化学习中,每一个自主体由两个神经网络模块组成,即( )。
305、【单选题 #7】强化学习主要由智能体和环境组成,两者间通过( )3个信号进行交互。① 奖励② 状态③ 反馈④ 动作
304、【单选题 #7】强化学习的常见模型是标准的( )。
303、【单选题 #7】在强化学习中,( )选择一个动作作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给智能体。
302、【单选题 #7】强化学习是从( ),参数扰动自适应控制等理论发展而来的,其基本原理是:如果智能体的某个行为策略导致环境正的奖赏,那么该智能体以后产生这个行为策略的趋势便会加强。
301、【单选题 #7】强化学习不要求预先给定任何数据,主要表现在强化信号上,通过接收环境对动作的( )获得学习信息,并更新模型参数。
