单选题
在强化学习中,()是“马尔可夫决策过程”(MDP)。
A
一种用于描述环境动态性的模型
B
一种用于选择动作的算法
C
一种用于计算奖励的方法
D
一种用于表示状态的数据结构
答案解析
正确答案:A
解析:
暂无解析
相关知识点:
MDP是环境动态模型
题目纠错
人工智能训练师题库_1500题
