首页技能鉴定其他技能数据挖掘工程师
(简答题)

简述数据清理的基本内容。

正确答案

①尽可能赋予属性名和属性值明确的含义;
②统一多数据源的属性值编码;
③去除无用的惟一属性或键值(如自动增长的id);
④去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的);
⑤去除可忽略字段(大部分为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果);
⑥合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金额);
⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据。

答案解析

相似试题

  • (简答题)

    简述数据仓库设计的三级模型的基本内容。

    答案解析

  • (简答题)

    简述数据预处理方法和内容。

    答案解析

  • (多选题)

    数据清理的目的是处理数据中的()。

    答案解析

  • (简答题)

    数据清理的目的是什么?

    答案解析

  • (单选题)

    关于基本数据的元数据是指()

    答案解析

  • (简答题)

    简述数据仓库与数据挖掘的关系?

    答案解析

  • (多选题)

    下列哪些是数据变换可能涉及的内容?()

    答案解析

  • (简答题)

    数据变换的内容是什么?

    答案解析

  • (简答题)

    业务元数据主要包含的内容是什么?

    答案解析

快考试在线搜题