269、【单选题 #5】( )是一种具有非线性适应性信息处理能力的算法,可克服传统人工智能方法对于直觉方面的缺陷,得到迅速发展。
答案解析
相关题目
316、【单选题 #7】在现实生活中,可以找到很多符合强化学习模型的例子,如( )等,这些都是积极奖励的例子。① 家中有矿② 父母的表扬③ 学校的好成绩④ 工作的高薪资
315、【单选题 #7】通过优化真实奖励函数的某个较为精确的近似函数,学习者可能会比专家表现得更好。该方法称为( ):通过观察策略来学习奖励,而不是通过观察奖励来学习策略。
314、【单选题 #7】某些领域过于复杂,以至于很难在其中定义强化学习所需的奖励函数。( )研究这样的问题:在提供了一些对专家行为观测的基础上,如何让学习表现得较好。
313、【单选题 #7】考虑这样的情形:有少量动作和状态,且环境完全可观测,其中智能体已经有了能决定其动作的固定策略。智能体将尝试学习( )——从状态出发,采用策略得到的期望总折扣奖励,称为被动强化学习。
312、【单选题 #7】从系统设计者的角度来看,智能体提供( )通常比提供有标签的行动样本要容易得多。在这种学习中,智能体与世界就其反映表现进行互动。
311、【单选题 #7】在无模型强化学习中,智能体直接学习如何采取行为方式,可以使用( )法求解。
310、【单选题 #7】在基于模型的强化学习中,智能体使用环境的( )来帮助解释奖励信号,并决定如何行动。
309、【单选题 #7】一般而言,( )是通过对数据进行分析,找到数据的表达模型,随后利用该模型,在新输入的数据上进行决策。
308、【单选题 #7】强化学习和监督学习的共同点是两者都需要大量的( )进行学习训练,但两者的学习方式不尽相同,两者所需的数据类型也有差异。
307、【单选题 #7】( )是根据当前的状态而决定下一个时刻施加到环境上去的最好动作。
