单选题
在强化学习中,()是“动态规划”(DynamicProgramming)。
A
一种用于优化策略的方法
B
一种用于计算状态值的方法
C
一种用于选择动作的规则
D
一种用于表示环境模型的数据结构
答案解析
正确答案:B
解析:
暂无解析
相关知识点:
强化学习方法口诀
题目纠错
人工智能训练师题库_1500题
