单选题
下列关于混合模型聚类算法的优、缺点的说法正确的是()。
A
当簇只包含少量数据点或者数据点近似协线性时,混合模型也能很好地处理
B
混合模型很难发现不同大小和椭球形状的簇
C
混合模型比K均值或模糊C均值更一般,因为它可以使用各种类型的分布
D
混合模型在有噪声和离群点时不会存在问题
答案解析
正确答案:C
解析:
K均值与模糊C均值都是迭代求取最终值的聚类划分,即聚类中心与隶属度值。两者都不能保证找到问题的最优解,都有可能收敛到局部极值。模糊C均值是K均值方法的改进,算法的目标函数与K均值一致,区别在于目标函数中增加了模糊权重指数;GMM高斯混合模型聚类采用了新的判断依据——概率,即通过属于某一类的概率大小来判断最终的归属类别。
题目纠错
相关题目
单选题
Kafak所有消息都会被持久化到硬盘中,同时Kafka通过对Topic Partition设置 Replication来保障数据的可靠性。
单选题
ISA类数据采集的数据源是textfile。
单选题
INSERT语句在数据导入时效率比较低,因此不要使用INSERT的方式来对数据表的写入。
单选题
HLog日志保证了用户写入的数推不丢失。
单选题
HLL类型的存储长度是固定的。
单选题
Hive中union all操作符用于合并两个或多个select语句的结果集,结果集中,不允许有重复值。
单选题
Hive中group by指的是通过一定规则将一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行分组处理。
单选题
Hive在load时不检索数据是否符合schema的,hive遵循的是schema on read,只有在读时模式的时候才会检查hive的数据字段。
单选题
Hive是一种数据仓库处理工具,使用类似SQL的HiveSQL语言实现数据查询功能,所有Hice的数据存储都存储在HDFS中。
单选题
HDFS运行时,NameNode会将文件系统的元数据从磁盘中全部加载到内存,因此文件系统所能 存储的文件总数受限于NameNode的内存容量。
