（简答题）

假设描述学生的信息包含属性：性别，籍贯，年龄。有两条记录p、q及两个簇C1、C2的信息如下，分别求出记录和簇彼此之间的距离。（k-means算法的拓展） p=｛男，广州，18｝，q=｛女，深圳，20｝ C1=｛男：25，女：5；广州：20，深圳：6，韶关：4；19｝ C2=｛男：3，女：12；汕头：12，深圳：1，湛江：2；24｝

正确答案

取x=1，得到的各距离如下：
d（p，q）=1+1+20-18=4
d（p，C1）=（1-25/30）+（1-20/30）+（19-18）=1.5
d（p，C2）=（1-3/15）+（1-0/15）+（24-18）=7.8
d（q，C1）=（1-5/30）+（1-6/30）+（20-19）=79/30
d（q，C2）=（1-12/15）+（1-1/15）+（24-20）=77/15
d（C1，C2）=[1-（25*3+5*12）/（30*15）]+[1-（6*1）/（30*15）]+（24-19）=1003/150

答案解析

略

相似试题

（判断题）
Web数据挖掘是通过数据库仲的一些属性来预测另一个属性，它在验证用户提出的假设过程中提取信息。
答案解析
（单选题）
假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：（）。
答案解析
（填空题）
聚类分析包括连续型、二值离散型、（）和混合类型4种类型描述属性的相似度计算方法。
答案解析
（简答题）
在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。
答案解析
（多选题）
在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有：（）。
答案解析
（单选题）
假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述，通常所使用的数据挖掘功能是（）。
答案解析
（填空题）
维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式：一种是采用自然键，另一种是采用（）
答案解析
（简答题）
考虑下表所示二元分类问题的数据集。（1）计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择哪个属性？（2）计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择哪个属性？
答案解析
（单选题）
假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70，问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。第二个箱子值为：（）。
答案解析