单选题
在强化学习中,策略梯度方法主要用于优化()。
A
价值函数
B
环境模型
C
策略函数
D
奖励函数
答案解析
正确答案:C
解析:
暂无解析
相关知识点:
强化学习策略,梯度优化策略函
题目纠错
人工智能训练师题库_1500题
