(1)k-means算法:
优点:算法描述容易,实现简单快速
不足:
簇的个数要预先给定
对初始值的依赖极大
不适合大量数据的处理
对噪声点和离群点很敏感
很难检测到“自然的”簇
(2)层次聚类算法:
BIRCH算法:
优点:利用聚类特征树概括了聚类的有用信息,节省内存空间;具有对象数目呈线性关系,可伸缩性和较好的聚类质量。
不足:每个节点只能包含有限数目的条目,工作效率受簇的形状的影响大。
C.URE算法:
优点:对孤立点的处理能力强;适用于大规模数据处理,伸缩性好,没有牺牲聚类质量。
缺点:算法在处理大量数据时必须基于抽样,划分等技术。
R.OCK算法:
优点:分类恰当,可采用随机抽样处理数据。
缺点:最坏的情况下时间复杂度级数大。
基于密度的聚类算法:可识别具有任意形状不同大小的簇,自动确定簇的数目,分离簇和环境噪声,一次扫描即可完成聚类,使用空间索引时间复杂度为O(NlbN)。
(简答题)
简述k-means算法,层次聚类算法的优缺点。
正确答案
答案解析
略