单选题
1291.在强化学习中,Q-learning算法主要用于解决什么问题?
A
状态估计
B
动作选择
C
奖励最大化
D
策略优化
答案解析
正确答案:D
相关知识点:
强化学习Q算法用于策略优化
题目纠错
人工智能训练师题库
