探索性数据分析
来自Wiki.Citydatum
探索性数据分析(Exploratory data analysis,简写为EDA)是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。
常见方法
探索性数据分析更多的是一种“态度”,而非特定方法的集合,但有些方法或工具常常出现在探索性数据分析中。
- 探索性数据分析中常用的数据可视化方法:
- 箱线图(Box plot)
- 直方图(Histogram)
- Multi-vari chart
- Run chart
- Pareto chart
- 散点图(Scatter plot)
- Stem-and-leaf plot
- Parallel coordinates
- Odds ratio
- Targeted projection pursuit
- Dimensionality reduction:
- Multidimensional scaling
- Principal component analysis (PCA)
- Multilinear PCA
- Nonlinear dimensionality reduction (NLDR)
- Projection methods such as grand tour, guided tour and manual tour
- Interactive versions of these plots
- 探索性数据分析中常用的量化分析方法:
- Median polish
- Trimean
- Ordination