AI智能推荐题库-试题通 AI智能整理导入题库-试题通
×
首页 题库中心 唐人街探案之秦风 题目详情
C9FF7D803E90000159811C7D1C201D0B
唐人街探案之秦风
3,655
单选题

蒙特卡罗强化学习算法的本质,是通过多次尝试后求平均来作为期望累计奖赏的金丝,但它在求平均时是采用哪种方式进行?

A
逐一式
B
循环式
C
分组式
D
批处理

答案解析

正确答案:D

解析:

蒙特卡罗强化学习是在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新,属于“批处理式”
唐人街探案之秦风

扫码进入小程序
随时随地练习

关闭登录弹窗
专为自学备考人员打造
勾选图标
自助导入本地题库
勾选图标
多种刷题考试模式
勾选图标
本地离线答题搜题
勾选图标
扫码考试方便快捷
勾选图标
海量试题每日更新
波浪装饰图
欢迎登录试题通
可以使用以下方式扫码登陆
APP图标
使用APP登录
微信图标
使用微信登录
试题通小程序二维码
联系电话:
400-660-3606
试题通企业微信二维码