在文本类数据清洗中，数据格式检查主要是检查数据的完整性和准确性。

正确

错误

正确答案：B

两个随机变量之间线性依赖关系的程度越低，则相关系数（）

相关系数的取值范围是（）

下面对基于质心的K均值聚类分析算法和基于分布的期望最大化聚类分析算法的描述，哪些是不正确的？① 都从随机初始化开始 ②都是可迭代算法 ③ 两者对数据点的假设很强 ④都对异常值敏感 ⑤ 期望最大化算法是K均值的特殊情况 ⑥ 都需要对所需要的簇数有先验知识 ⑦结果是不可再现的

一般来说，聚类分析过程包括（）① 数据准备 ②特征选择 ③ 特征提取 ④ 聚类分组 ⑤ 结果评估

执行聚类分析时，对聚类对象最少要有多少个变量或属性（）

可以用下面哪一种方法来获得和全局最小值有关的K均值算法的良好结果( ) ① 试着运行不同的质心初始化算法 ② 调整迭代的次数 ③ 找出最佳的簇数

关于K均值聚类的描述正确的是（）① K均值对簇中心初始化非常敏感 ② 初始化不良会导致收敛速度差 ③ 初始化不良可能导致整体聚集不良

如果有m个点，DBSCAN在最坏的情况下时间复杂度为（）

以下不属于基于密度的算法的聚类算法的是（）

聚类后样本的簇大小是指簇中样本的( )