“箱线图”的版本间的差异

来自Wiki.Citydatum
跳转至: 导航搜索
 
(未显示同一用户的2个中间版本)
第1行: 第1行:
{{提示|该页面还需进一步完善,来搭把手吧!}}
+
{{提示|该页面初稿接近完成,编辑前请先[[讨论:箱线图|讨论]]。}}
  
[[文件:BoxPlot.jpg|缩略图]]
 
 
'''箱线图'''(也称'''箱须图''',box-and-whisker plot)、'''箱形图'''(boxplot)都是利用[[分位值]]来描述数值型数据分散情况的图示化表达方法,可以应用于各类数值型数据的[[描述性统计]]。箱线图通过添加上下延伸的线,来描述落在上、下四分位以外数值的分布情况。异常值(outlier)通常以独立的点来表示。在城市数据分析和城市规划领域中,箱形图有更多的潜在应用可能,如地块指标赋值的描述性统计分析,校核异常值等。
 
'''箱线图'''(也称'''箱须图''',box-and-whisker plot)、'''箱形图'''(boxplot)都是利用[[分位值]]来描述数值型数据分散情况的图示化表达方法,可以应用于各类数值型数据的[[描述性统计]]。箱线图通过添加上下延伸的线,来描述落在上、下四分位以外数值的分布情况。异常值(outlier)通常以独立的点来表示。在城市数据分析和城市规划领域中,箱形图有更多的潜在应用可能,如地块指标赋值的描述性统计分析,校核异常值等。
  
 
== 箱形图概述 ==
 
== 箱形图概述 ==
箱形图、箱线图在箱体部分的绘制方法和代表含义是一致的:箱体上边为'''上四分位值'''(1st quartile),中线为'''中位值'''(2nd quartile/median),箱体下边为下'''四分位值'''(3rd quartial)。但箱线图上下延伸线代表的含义不尽相同,常见的有:
+
[[文件:BoxPlot1.jpg|192px|缩略图|箱线图示意]]
 +
* 箱形图、箱线图在箱体部分的绘制方法和代表含义是一致的:箱体上边为'''上四分位值'''(1st quartile),中线为'''[[中位数]]'''(2nd quartile/median),箱体下边为下'''四分位值'''(3rd quartial)。
 +
* 箱线图上下延伸线代表的含义不尽相同,常见的有:
 +
** 最大非异常值与最小非异常值,即上四分位值以上1.5倍四分位差(IQR)以内的最大数据值,与下四分位值以下1.5倍四分位差以内的最小数据值,也被称Tukey图;
 +
** 数据组的最大值与最小值;
 +
** 比[[中位数]]相差一个[[标准差]]的数值;
 +
** 第9百分位的数据值(percentile),及第91百分位的数据值;
 +
** 第2百分位的数据值,及第98百分位的数据值。3
 +
* 自1969年数学家John W. Tukey推出这种数据的图示表达方式后,后续又出现了一些传统箱线图的变体。以下是较为常见两种:
 +
** 有宽度变化的箱线图:在不同组数据比较时,用箱体的宽度表示数据量的多少;
 +
** 有凹槽的箱线图:在中位数横线处箱体的宽度缩窄,表示[[中位数]]差别显著性的大致趋势。
  
 
== 箱形图绘制 ==
 
== 箱形图绘制 ==
* 人工绘制箱线图:先绘制数轴,计算需要的分位值;随后根据上下四分位和中位值绘制箱体;再根据需要计算和绘制异常值截断点(也被称为内限)、外限等要素;最后标注异常值(有时会区分温和异常值、极端异常值);
+
* 人工绘制箱线图:先绘制数轴,计算需要的分位值;随后根据上下四分位和[[中位数]]绘制箱体;再根据需要计算和绘制异常值截断点(也被称为内限)、外限等要素;最后标注异常值(有时会区分温和异常值、极端异常值)。
* Excel绘制箱线图:
+
* Excel绘制箱线图:可利用公式''QUARTILE(array,quart)'' 求得最小值、下四分位、中位、上四分位、最大值,Excel没有直接绘制箱线图的工具,需要根据计算出的分位值,手动调整图表样式。
* R语言绘制箱线图:
+
* R语言绘制箱线图:利用函数''boxplot(array)'' 可直接绘制箱线图,通过''boxplot(array ~ group)'' 的方式,并排绘制一组箱线图。
  
 
== 箱形图应用 ==
 
== 箱形图应用 ==
第16行: 第25行:
  
 
== 参考资料 ==
 
== 参考资料 ==
 +
* [https://en.wikipedia.org/wiki/Box_plot Wikipedia]
 +
* [http://wiki.mbalib.com/wiki/%E7%AE%B1%E7%BA%BF%E5%9B%BE 智库百科]
 +
 
<References />
 
<References />
  
[[Category: 视觉化方法]]
+
[[Category: 数据图表类型]]

2018年5月15日 (二) 03:50的最新版本

TODO
提示:该页面初稿接近完成,编辑前请先讨论


箱线图(也称箱须图,box-and-whisker plot)、箱形图(boxplot)都是利用分位值来描述数值型数据分散情况的图示化表达方法,可以应用于各类数值型数据的描述性统计。箱线图通过添加上下延伸的线,来描述落在上、下四分位以外数值的分布情况。异常值(outlier)通常以独立的点来表示。在城市数据分析和城市规划领域中,箱形图有更多的潜在应用可能,如地块指标赋值的描述性统计分析,校核异常值等。

箱形图概述

箱线图示意
  • 箱形图、箱线图在箱体部分的绘制方法和代表含义是一致的:箱体上边为上四分位值(1st quartile),中线为中位数(2nd quartile/median),箱体下边为下四分位值(3rd quartial)。
  • 箱线图上下延伸线代表的含义不尽相同,常见的有:
    • 最大非异常值与最小非异常值,即上四分位值以上1.5倍四分位差(IQR)以内的最大数据值,与下四分位值以下1.5倍四分位差以内的最小数据值,也被称Tukey图;
    • 数据组的最大值与最小值;
    • 中位数相差一个标准差的数值;
    • 第9百分位的数据值(percentile),及第91百分位的数据值;
    • 第2百分位的数据值,及第98百分位的数据值。3
  • 自1969年数学家John W. Tukey推出这种数据的图示表达方式后,后续又出现了一些传统箱线图的变体。以下是较为常见两种:
    • 有宽度变化的箱线图:在不同组数据比较时,用箱体的宽度表示数据量的多少;
    • 有凹槽的箱线图:在中位数横线处箱体的宽度缩窄,表示中位数差别显著性的大致趋势。

箱形图绘制

  • 人工绘制箱线图:先绘制数轴,计算需要的分位值;随后根据上下四分位和中位数绘制箱体;再根据需要计算和绘制异常值截断点(也被称为内限)、外限等要素;最后标注异常值(有时会区分温和异常值、极端异常值)。
  • Excel绘制箱线图:可利用公式QUARTILE(array,quart) 求得最小值、下四分位、中位、上四分位、最大值,Excel没有直接绘制箱线图的工具,需要根据计算出的分位值,手动调整图表样式。
  • R语言绘制箱线图:利用函数boxplot(array) 可直接绘制箱线图,通过boxplot(array ~ group) 的方式,并排绘制一组箱线图。

箱形图应用

参考资料