单选题
1276.强化学习中,Q-learning算法主要用于什么?
A
状态估计
B
动作选择
C
奖励最大化
D
策略优化
答案解析
正确答案:D
相关知识点:
Q-learning用于策略优化
题目纠错
人工智能训练师题库
相关题目
单选题
3576.合作伙伴对物理专线,可以有哪些操作?
单选题
3575.在深度学习中,哪些技术可以用于提高模型在图像分类和文本处理任务上的泛化能力:
单选题
3574.依据自然语言是处理系统的输入还是输出,自然语言处理完成的功能可以划分为一下两类。
单选题
3573.数据归约的策略有()。
单选题
3572.图像区域标注现在可以使用的手段有()。
单选题
3571.合并分E-R图时,分E-R图之间的冲突主要有().
单选题
3570.DELETE(DEL)键的功能是()
单选题
3569.数据库工作单元与主语言程序工作单元之间的通信主要包括().
单选题
3568.不能让计算机能够说话
单选题
3567.日志文件的具体作用表现为()
