单选题
1306.在强化学习中,策略梯度方法主要用于优化:
A
价值函数
B
环境模型
C
策略函数
D
奖励函数
答案解析
正确答案:C
相关知识点:
策略梯度优化策略函数
题目纠错
人工智能训练师题库
