首页技能鉴定其他技能数据挖掘工程师
(简答题)

分别说明利用支持度、置信度和提升度评价关联规则的优缺点。

正确答案

支持度
优点:支持度高说明这条规则可能适用于数据集中的大部分事务。
缺点:若支持度阈值过高,则许多潜在的有意义的模式由于包含支持度小的项而被删去;若支持度阈值过低,则计算代价很高而且产生大量的关联模式。
置信度
优点:置信度高说明如果满足了关联规则的前件,同时满足后件的可能性也非常大。
缺点:找到负相关的关联规则。
提升度:
优点:提升度可以评估项集A的出现是否能够促进项集B的出现。
缺点:会产生出现伪相互独立的规则。

答案解析

相似试题

  • (简答题)

    下表所示的相依表汇总了超级市场的事务数据。其中hot dogs指包含热狗的事务,指不包含热狗的事务。hamburgers指包含汉堡的事务,指不包含汉堡的事务。 假设挖掘出的关联规则是“hot dogs=>hamburgers”。给定最小支持度阈值25%和最小置信度阈值50%,这个关联规则是强规则吗? 计算关联规则“hot dogs=>hamburgers”的提升度,能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是,两者间存在哪种相关关系?

    答案解析

  • (简答题)

    数据集如下表所示: (a)把每一个事务作为一个购物篮,计算项集{e},{b,d}和{b,d,e}的支持度。 (b)利用(a)中结果计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。置信度是一个对称的度量吗? (c)把每一个用户购买的所有商品作为一个购物篮,计算项集{e},{b,d}和{b,d,e}的支持度。 (d)利用(b)中结果计算关联规则{b,d}→{e}和 {e}→{b,d}的置信度。置信度是一个对称的度量吗?

    答案解析

  • (判断题)

    具有较高的支持度的项集具有较高的置信度。

    答案解析

  • (简答题)

    一个数据库有5个事务,如表所示。设min_sup=60%,min_conf=80%。 (a)分别用Apriori算法和FP-growth算法找出所有频繁项集。比较两种挖掘方法的效率。 (b)比较穷举法和Apriori算法生成的候选项集的数量。 (c)利用(1)所找出的频繁项集,生成所有的强关联规则和对应的支持度和置信度。

    答案解析

  • (名词解析)

    支持度

    答案解析

  • (单选题)

    支持度(support)是衡量兴趣度度量()的指标。

    答案解析

  • (判断题)

    关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

    答案解析

  • (简答题)

    简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。

    答案解析

  • (单选题)

    以下哪个指标不是表示对象间的相似度和相异度?()

    答案解析

快考试在线搜题