（简答题）

简述k-means算法，层次聚类算法的优缺点。

正确答案

（1）k-means算法：
优点：算法描述容易，实现简单快速
不足：
簇的个数要预先给定
对初始值的依赖极大
不适合大量数据的处理
对噪声点和离群点很敏感
很难检测到“自然的”簇
（2）层次聚类算法：
BIRCH算法：
优点：利用聚类特征树概括了聚类的有用信息，节省内存空间；具有对象数目呈线性关系，可伸缩性和较好的聚类质量。
不足：每个节点只能包含有限数目的条目，工作效率受簇的形状的影响大。
C.URE算法：
优点：对孤立点的处理能力强；适用于大规模数据处理，伸缩性好，没有牺牲聚类质量。
缺点：算法在处理大量数据时必须基于抽样，划分等技术。
R.OCK算法：
优点：分类恰当，可采用随机抽样处理数据。
缺点：最坏的情况下时间复杂度级数大。
基于密度的聚类算法：可识别具有任意形状不同大小的簇，自动确定簇的数目，分离簇和环境噪声，一次扫描即可完成聚类，使用空间索引时间复杂度为O（NlbN）。

答案解析

略

相似试题

（简答题）
简述K-means算法的基本操作步骤（包括算法的输入和输出）。
答案解析
（多选题）
（）都属于分裂的层次聚类算法。
答案解析
（简答题）
简述K-平均算法的输入、输出及聚类过程（流程）。
答案解析
（简答题）
简述K-中心点算法的输入、输出及聚类过程（流程）。
答案解析
（单选题）
以下哪个聚类算法不属于基于网格的聚类算法（）。
答案解析
（单选题）
以下哪个聚类算法不是属于基于原型的聚类（）。
答案解析
（简答题）
常见的聚类算法可以分为几类？
答案解析
（单选题）
以下属于可伸缩聚类算法的是（）。
答案解析
（判断题）
K均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。
答案解析