首页技能鉴定其他技能数据挖掘工程师
(简答题)

简述k-means算法,层次聚类算法的优缺点。

正确答案

(1)k-means算法:
优点:算法描述容易,实现简单快速
不足:
簇的个数要预先给定
对初始值的依赖极大
不适合大量数据的处理
对噪声点和离群点很敏感
很难检测到“自然的”簇
(2)层次聚类算法:
BIRCH算法:
优点:利用聚类特征树概括了聚类的有用信息,节省内存空间;具有对象数目呈线性关系,可伸缩性和较好的聚类质量。
不足:每个节点只能包含有限数目的条目,工作效率受簇的形状的影响大。
C.URE算法:
优点:对孤立点的处理能力强;适用于大规模数据处理,伸缩性好,没有牺牲聚类质量。
缺点:算法在处理大量数据时必须基于抽样,划分等技术。
R.OCK算法:
优点:分类恰当,可采用随机抽样处理数据。
缺点:最坏的情况下时间复杂度级数大。
基于密度的聚类算法:可识别具有任意形状不同大小的簇,自动确定簇的数目,分离簇和环境噪声,一次扫描即可完成聚类,使用空间索引时间复杂度为O(NlbN)。

答案解析

相似试题

  • (简答题)

    简述K-means算法的基本操作步骤(包括算法的输入和输出)。

    答案解析

  • (多选题)

    ()都属于分裂的层次聚类算法。

    答案解析

  • (简答题)

    简述K-平均算法的输入、输出及聚类过程(流程)。

    答案解析

  • (简答题)

    简述K-中心点算法的输入、输出及聚类过程(流程)。

    答案解析

  • (单选题)

    以下哪个聚类算法不属于基于网格的聚类算法()。

    答案解析

  • (单选题)

    以下哪个聚类算法不是属于基于原型的聚类()。

    答案解析

  • (简答题)

    常见的聚类算法可以分为几类?

    答案解析

  • (单选题)

    以下属于可伸缩聚类算法的是()。

    答案解析

  • (判断题)

    K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。

    答案解析

快考试在线搜题