（简答题）

下表所示的相依表汇总了超级市场的事务数据。其中hot dogs指包含热狗的事务，指不包含热狗的事务。hamburgers指包含汉堡的事务，指不包含汉堡的事务。假设挖掘出的关联规则是“hot dogs=>hamburgers”。给定最小支持度阈值25%和最小置信度阈值50%，这个关联规则是强规则吗？计算关联规则“hot dogs=>hamburgers”的提升度，能够说明什么问题？购买热狗和购买汉堡是独立的吗？如果不是，两者间存在哪种相关关系？

正确答案

故这个关联规则是强规则。
S（{hamburgers}）=2500/5000=50%
提升度

=1.334 提升度大于1，表明hot dogs和hamburgers不是互相独立的，二者之间存在正相关关系。

答案解析

略

相似试题

（简答题）
考虑下表所示二元分类问题的数据集。（1）计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择哪个属性？（2）计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择哪个属性？
答案解析
（单选题）
对于下图所示的正倾斜数据，中位数、平均值、众数三者之间的关系是（）
答案解析
（简答题）
数据集如下表所示：（a）把每一个事务作为一个购物篮，计算项集{e}，{b，d}和{b，d，e}的支持度。（b）利用（a）中结果计算关联规则{b，d}→{e}和{e}→{b，d}的置信度。置信度是一个对称的度量吗？（c）把每一个用户购买的所有商品作为一个购物篮，计算项集{e}，{b，d}和{b，d，e}的支持度。（d）利用（b）中结果计算关联规则{b，d}→{e}和 {e}→{b，d}的置信度。置信度是一个对称的度量吗？
答案解析
（简答题）
一个数据库有5个事务，如表所示。设min_sup=60%，min_conf=80%。（a）分别用Apriori算法和FP-growth算法找出所有频繁项集。比较两种挖掘方法的效率。（b）比较穷举法和Apriori算法生成的候选项集的数量。（c）利用（1）所找出的频繁项集，生成所有的强关联规则和对应的支持度和置信度。
答案解析
（单选题）
哪种数据变换的方法将数据沿概念分层向上汇总？（）
答案解析
（填空题）
数据处理通常分成两大类：联机事务处理和（）
答案解析
（简答题）
考虑下表数据集，请完成以下问题：（1）估计条件概率。（2）根据（1）中的条件概率，使用朴素贝叶斯方法预测测试样本（A=0，B=1，C=0）的类标号；（3）使用Laplace估计方法，其中p=1/2，l=4，估计条件概率。（4）同（2），使用（3）中的条件概率。（5）比较估计概率的两种方法，哪一种更好，为什么？
答案解析
（简答题）
什么是用户信息需求表（信息包图法）？它为什么适用于数据仓库的概念模型的设计？
答案解析
（简答题）
下表中列出了4个点的两个最近邻。使用SNN相似度定义，计算每对点之间的SNN相似度。
答案解析