关联是指发现样本间或样本不同属性间的关联。例如,一个数据挖掘系统可能发现的关联规则为:。其中,X是一个表示学生的变量。该规则指出主修计算机科学并且拥有一台个人计算机的学生所占比例为12%,同时,主修计算机专业的学生有98%拥有个人计算机。
分类是构造一系列能描述和区分数据类型或概念的模型(或功能),分类被用作预测目标数据的类的标签。例如,通过对过去银行客户流失与未流失客户数据的分析,得到一个预测模型,预测新客户是否可能会流失。
聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。例如,通过对某大型超市客户购物数据进行聚类,将客户聚类细分为低值客户、高值客户以及普通客户等。
数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。
离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。
(简答题)
定义下列数据挖掘功能: 关联、分类、聚类、演变分析、离群点检测 使用你熟悉的生活中的数据,给出每种数据挖掘功能的例子。
正确答案
答案解析
略