首页技能鉴定其他技能数据挖掘工程师
(简答题)

下表所示的相依表汇总了超级市场的事务数据。其中hot dogs指包含热狗的事务,指不包含热狗的事务。hamburgers指包含汉堡的事务,指不包含汉堡的事务。 假设挖掘出的关联规则是“hot dogs=>hamburgers”。给定最小支持度阈值25%和最小置信度阈值50%,这个关联规则是强规则吗? 计算关联规则“hot dogs=>hamburgers”的提升度,能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是,两者间存在哪种相关关系?

正确答案

故这个关联规则是强规则。
S({hamburgers})=2500/5000=50%
提升度=1.334 提升度大于1,表明hot dogs和hamburgers不是互相独立的,二者之间存在正相关关系。

答案解析

相似试题

  • (简答题)

    考虑下表所示二元分类问题的数据集。 (1)计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择哪个属性? (2)计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择哪个属性?

    答案解析

  • (单选题)

    对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是()

    答案解析

  • (简答题)

    数据集如下表所示: (a)把每一个事务作为一个购物篮,计算项集{e},{b,d}和{b,d,e}的支持度。 (b)利用(a)中结果计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。置信度是一个对称的度量吗? (c)把每一个用户购买的所有商品作为一个购物篮,计算项集{e},{b,d}和{b,d,e}的支持度。 (d)利用(b)中结果计算关联规则{b,d}→{e}和 {e}→{b,d}的置信度。置信度是一个对称的度量吗?

    答案解析

  • (简答题)

    一个数据库有5个事务,如表所示。设min_sup=60%,min_conf=80%。 (a)分别用Apriori算法和FP-growth算法找出所有频繁项集。比较两种挖掘方法的效率。 (b)比较穷举法和Apriori算法生成的候选项集的数量。 (c)利用(1)所找出的频繁项集,生成所有的强关联规则和对应的支持度和置信度。

    答案解析

  • (单选题)

    哪种数据变换的方法将数据沿概念分层向上汇总?()

    答案解析

  • (填空题)

    数据处理通常分成两大类:联机事务处理和()

    答案解析

  • (简答题)

    考虑下表数据集,请完成以下问题: (1)估计条件概率。 (2)根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号; (3)使用Laplace估计方法,其中p=1/2,l=4,估计条件概率。 (4)同(2),使用(3)中的条件概率。 (5)比较估计概率的两种方法,哪一种更好,为什么?

    答案解析

  • (简答题)

    什么是用户信息需求表(信息包图法)?它为什么适用于数据仓库的概念模型的设计?

    答案解析

  • (简答题)

    下表中列出了4个点的两个最近邻。使用SNN相似度定义,计算每对点之间的SNN相似度。

    答案解析

快考试在线搜题