相关题目
如果在一个高度非线性并且复杂的一些变量中“一个树模型可比一般的¥回归模型效果更好”是( )
对于线性回归模型,包括附加变量在内,以下的可能正确的是 :( )¥1.R-Squared 和 Adjusted R-squared 都是递增的¥2.R-Squared 是常量的,Adjusted R-squared 是递增的¥3.R-Squared 是递减的, Adjusted R-squared 也是递减的¥4.R-Squared 是递减的, Adjusted R-squared 是递增的
变量选择是用来选择最好的判别器子集, 如果要考虑模型效率,我们¥应该做哪些变量选择的考虑? ()¥1.多个变量其实有相同的用处¥2.变量对于模型的解释有多大作用¥3.特征携带的信息¥4.交叉验证
下面的交叉验证方法 :( )¥i. 有放回的 Bootstrap 方法¥ii. 留一个测试样本的交叉验证¥iii. 5 折交叉验证¥iv. 重复两次的 5 折交叉验证¥当样本是 1000 时,下面执行时间的顺序,正确的是:
如果一个训练好的模型在测试集上有 100%的准确率, 这是不是意味¥着在一个新的数据集上,也会有同样好的表现?( )
以下说法正确的是 :()¥1.一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的¥2.如果增加模型复杂度, 那么模型的测试错误率总是会降低¥3.如果增加模型复杂度, 那么模型的训练错误率总是会降低¥4.我们不可以使用聚类“类别 id”作为一个新的特征项, 然后再用监督学¥习分别进行学习
在有监督学习中, 我们如何使用聚类方法?( )¥1.我们可以先创建聚类类别, 然后在每个类别上用监督学习分别进行学习¥2.我们可以使用聚类“类别 id”作为一个新的特征项, 然后再用监督学习¥分别进行学习¥3.在进行监督学习之前, 我们不能新建聚类类别¥4.我们不可以使用聚类“类别 id”作为一个新的特征项, 然后再用监督学¥习分别进行学习
数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把¥这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习¥说法正确的是 :( )
对于 PCA 说法正确的是 :( )¥1.我们必须在使用 PCA 前规范化数据¥2.我们应该选择使得模型有最大 variance 的主成分¥3.我们应该选择使得模型有最小 variance 的主成分¥4.我们可以使用 PCA 在低维度上做数据可视化
对于随机森林和 GradientBoosting Trees, 下面说法正确的是: ( )¥1.在随机森林的单个树中, 树和树之间是有依赖的, 而 GradientBoosting ¥Trees 中的单个树之间是没有依赖的¥2.这两个模型都使用随机特征子集, 来生成许多单个的树¥3.我们可以并行地生成 GradientBoosting Trees 单个树, 因为它们之间是¥没有依赖的, GradientBoosting Trees 训练模型的表现总是比随机森林好
