探索性数据分析

来自Wiki.Citydatum
跳转至: 导航搜索
TODO
提示:该页面仍需进一步完善,欢迎加入我们


探索性数据分析(Exploratory data analysis,简写为EDA)是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。

  • 统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。

常见方法

探索性数据分析更多的是一种“态度”,而非特定方法的集合,但有些方法或工具常常出现在探索性数据分析中。

  • 探索性数据分析中常用的数据可视化方法:
    • 箱线图(Box plot)
    • 直方图(Histogram)
    • Multi-vari chart
    • Run chart
    • Pareto chart
    • 散点图(Scatter plot)
    • Stem-and-leaf plot
    • Parallel coordinates
    • Odds ratio
    • Targeted projection pursuit
    • Dimensionality reduction:
    • Multidimensional scaling
    • Principal component analysis (PCA)
    • Multilinear PCA
    • Nonlinear dimensionality reduction (NLDR)
    • Projection methods such as grand tour, guided tour and manual tour
    • Interactive versions of these plots
  • 探索性数据分析中常用的量化分析方法:
    • Median polish
    • Trimean
    • Ordination

参考链接