单选题
1012.在强化学习中,什么是“马尔可夫决策过程”(MDP)?
A
一种用于描述环境动态性的模型
B
一种用于选择动作的算法
C
一种用于计算奖励的方法
D
一种用于表示状态的数据结构
答案解析
正确答案:A
相关知识点:
MDP描述环境动态性模型
题目纠错
人工智能训练师题库
相关题目
单选题
3839.目前在专家系统中,知识的不确定性一般由领域专家给出,通常是一个数值,它表示相应知识的不确定性程度,称为知识的动态强度
单选题
3838.均值滤波存在不希望的边缘模糊负面效应
单选题
3837.OneHotEncoder是一种不能够被scikit-learn的估计器使用的类别特征转换函数
单选题
3836.数据科学是根据数据世界的分析结果,对现实世界进行预测、洞见、解释或决策的新兴科学
单选题
3835.静态方法不需要关键字self
单选题
3834.数据库审计服务发生异常,5分钟内用户可以收到告警信息
单选题
3833.命题是能判断真假的陈述句
单选题
3832.在梯度分别为正负的两个点之间,一定存在一个梯度为0的点
单选题
3831.目前股市仍处于政府控制行为阶段
单选题
3830.机器人相比较股民优势体现为可以通过指标分析来操作股市
