单选题
1388.在强化学习中,策略梯度(PolicyGradient)方法主要用于解决什么问题?
A
模式识别。
B
寻找最优策略。
C
解决组合优化问题。
D
估计状态值函数。
答案解析
正确答案:B
相关知识点:
策略梯度用于找最优策略
题目纠错
人工智能训练师题库
