相关题目
对于 PCA 说法正确的是 :( )¥1.我们必须在使用 PCA 前规范化数据¥2.我们应该选择使得模型有最大 variance 的主成分¥3.我们应该选择使得模型有最小 variance 的主成分¥4.我们可以使用 PCA 在低维度上做数据可视化
对于随机森林和 GradientBoosting Trees, 下面说法正确的是: ( )¥1.在随机森林的单个树中, 树和树之间是有依赖的, 而 GradientBoosting ¥Trees 中的单个树之间是没有依赖的¥2.这两个模型都使用随机特征子集, 来生成许多单个的树¥3.我们可以并行地生成 GradientBoosting Trees 单个树, 因为它们之间是¥没有依赖的, GradientBoosting Trees 训练模型的表现总是比随机森林好
我们建立一个 5000 个特征, 100 万数据的机器学习模型. 我们怎么有¥效地应对这样的大数据训练 : ()
请选择下面可以应用隐马尔科夫(HMM)模型的选项: ( )
假如我们使用非线性可分的 SVM 目标函数作为最优化对象, 我们怎么¥保证模型线性可分?( )
我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以 : ¥( )
”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而 1%¥的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们¥已经建了一个模型来分类, 而且有了 99%的预测准确率, 我们可以下的结¥论是 : ( )
如果 SVM 模型欠拟合, 以下方法哪些可以改进模型 : ()
对于信息增益, 决策树分裂节点, 下面说法正确的是: ( ) 1.纯度高的节点需要更多的信息去区分¥2.信息增益可以用”1 比特-熵”获得¥3.如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的
模型的高 bias 是什么意思, 我们如何降低它 ?( )
