单选题
1299.在强化学习中,价值函数(ValueFunction)主要用于表示什么?
A
环境的状态
B
特定状态下采取特定行动的预期回报
C
智能体的行为策略
D
环境的动态特性
答案解析
正确答案:B
相关知识点:
强化学习价值函数表预期回报
题目纠错
人工智能训练师题库
相关题目
单选题
3553.下列选项中属于感知技术的是
单选题
3552.存贮容量的单位用()表示。
单选题
3551.编写Dockerfile的最佳实践包括()
单选题
3550.通信系统由()部分组成。
单选题
3549.BERT模型架构的优势包括:()
单选题
3548.在自然语言处理任务中,哪些技术适用于改善实体识别、文本分类和文本生成的效果:
单选题
3547.以下哪些是强化学习的组成部分?
单选题
3546.在深度学习模型训练中,哪些技术有助于防止过拟合并加速模型在各类任务上的训练速度:
单选题
3545.以下哪些是监督学习算法?
单选题
3544.XML格式的文件,下列选项中哪些是真的()。
