单选题
1458.在强化学习中,价值函数(ValueFunction)和回报函数(RewardFunction)有何不同?
A
价值函数评估了一个状态或行为序列的总回报,而回报函数定义了每个状态或行为的即时回报。
B
回报函数评估了一个状态或行为序列的总回报,而价值函数定义了每个状态或行为的即时回报。
C
两者都是用来评估策略的好坏,没有区别。
D
价值函数是静态的,而回报函数是动态变化的。
答案解析
正确答案:A
相关知识点:
强化学习价值回报函数不同
题目纠错
人工智能训练师题库
相关题目
单选题
3394.哪些是常见的无监督学习算法?
单选题
3393.已知函数依赖A1A2→B1B2,则下列依赖一定正解的是().
单选题
3392.关于对以下常用的组织机构顶级域名的认识正确的是()。
单选题
3391.在自然语言处理任务中,哪些技术适用于提升问答系统和对话系统的质量:
单选题
3390.数量归约中有参数的方法一般使用()。
单选题
3389.以下哪些是人工智能在医疗领域的应用?
单选题
3388.信息化的文化内涵主要表现在()
单选题
3387.以下那些方面是机器人能够做到的
单选题
3386.数据模型通常由()要素组成
单选题
3385.在深度学习模型设计中,哪些技术有助于提高模型的训练效率和稳定性:
