查看“数据清洗”的源代码
←
数据清洗
跳转至:
导航
,
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
{{提示|该页面还需进一步完善,欢迎加入我们}} 数据清洗(Data cleaning)是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。 == 常见操作 == === 一致性检查 === 一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。 === 无效值和缺失值的处理 === 由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。 * 估算(estimation):最简单的办法就是用某个变量的样本[[平均数]]、[[中位数]]或[[众数]]代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。 * 整例删除(casewise deletion):即剔除含有缺失值的样本。这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。 * 变量删除(variable deletion):如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。 * 成对删除(pairwise deletion)是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。 == 外部链接 == * [https://en.wikipedia.org/wiki/Data_cleansing Wikipedia] * [https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97 百度百科] [[分类:数据准备技巧]]
该页面使用的模板:
模板:提示
(
查看源代码
)
返回至
数据清洗
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
分类索引
最近更改
随机页面
用户指南
编辑助手
工具
链入页面
相关更改
特殊页面
页面信息