答案:B
A. 学习方式分类$;$网络结构分类$;$网络的协议类型分类$;$网络的活动方式分类
A. -6$;$6$;$2$;$2
A. 学习率和w、b一样是参数,是系统自己学习得到的$;$学习率越大系统运行速度越快$;$学习率越小系统一定精度越高$;$学习率的大小是根据不同场景程序员自己设定的,不宜太大或者太小
A. 在实际场景下,应尽量使用ADAM,避免使用SGD$;$同样的初始学习率情况下,ADAM的收敛速度总是快于SGD方法$;$相同超参数数量情况下,比起自适应的学习率调整方式,SGD加手动调节通常会取得更好效果$;$同样的初始学习率情况下,ADAM比SGD容易过拟合
A. 深度学习是机器学习的一个分支$;$
深度学习与机器学习是互相包含的关系$;$深度学习与机器学习同属于人工智能但相互之间没有关系$;$以上都不对
A. 多分类学习$;$对数几率回归$;$Fisher判别分析$;$多分类学习
A. 专词训练$;$句篇训练$;$句式训练$;$声学训练
A. SIFT$;$HOG$;$SVM$;$Adaboost
A. 全局梯度算法可以找到损失函数的最小值$;$批量梯度算法可以解决局部最小值问题$;$随机梯度算法可以找到损失函数的最小值$;$全局梯度算法收敛过程比较耗时