Dalam statistika deskriptif,
Diagram kotak garis atau boxplot adalah metode grafis untuk menggambarkan kumpulan data numerik berdasarkan nilai kuartilnya.
Diagram kotak garis bersifat nonparametrik, artinya
Diagram ini menampilkan variasi sampel populasi statistik tanpa membuat asumsi apa pun tentang distribusi statistik yang mendasarinya. Jarak antara bagian-bagian
kotak yang berbeda menunjukkan derajat dispersi (sebaran), kemiringan, dan pencilan dari data tersebut.
Diagram kotak garis dapat digambarkan secara horizontal maupun vertikal.
Diagram kotak garis merupakan salah satu cara sederhana untuk menampilkan kumpulan data berdasarkan ringkasan lima angka dari data tersebut. Ringkasan lima angka yang dimaksud yakni:
Minimum : nilai terendah dari kumpulan data, tidak termasuk pencilan.
Maksimum : nilai terbesar dari kumpulan data, tidak termasuk pencilan.
Median (Q2 / persentil ke-50): nilai tengah kumpulan data.
Kuartil pertama (Q1 / persentil ke-25): juga dikenal sebagai kuartil bawah qn(0.25), adalah median dari bagian bawah kumpulan data.
Kuartil ketiga (Q3 / persentil ke-75): juga dikenal sebagai kuartil qn(0.75), adalah median dari bagian atas kumpulan data.
Elemen penting lain dalam pembuatan
Diagram kotak garis adalah jangkauan interkuartil (Interquartile range, IQR). Jangkauan interkuartil adalah jarak antara kuartil atas dan bawah, dinotasikan sebagai:
IQR
=
Q
3
−
Q
1
=
q
n
(
0.75
)
−
q
n
(
0.25
)
{\displaystyle {\text{IQR}}=Q_{3}-Q_{1}=q_{n}(0.75)-q_{n}(0.25)}
Diagram kotak garis terdiri atas dua bagian, yakni sebuah
kotak dan satu pasang
garis (seperti pada Gambar 2). Titik terendah dalam
Diagram merupakan nilai minimum dari dataset, sementara titik tertingginya merupakan nilai maksimum dari dataset. Sebuah
kotak digambar dari Q1 ke Q3 kemudian
garis horizontal digambar di tengahnya untuk menunjukkan median.
kumpulan data yang sama juga dapat direpresentasikan sebagai
Diagram kotak garis seperti yang ditunjukkan pada Gambar 3. Pertama, lakukan pengukuran sejauh 1,5 kali IQR dari kuartil atas. Kemudian sebuah
garis ditarik dari kuartil atas menuju nilai terbesar dalam dataset yang berada dalam jarak 1,5 kali IQR. Hal yang sama juga dilakukan pada bagian bawah. Sebuah
garis ditarik dari kuartil bawah menuju nilai terkecil dalam dataset yang berada dalam jarak 1,5 kali IQR, diukur dari bawah kuartil bawah. Semua titik lainnya dianggap sebagai pencilan.
Meskipun demikian,
garis dalam
Diagram ini dapat mewakili beberapa kemungkinan nilai lainnya, seperti:
minimum dan maksimum dari semua data (seperti pada gambar 2)
satu deviasi standar di atas dan di bawah rata-rata data
persentil ke-9 dan persentil ke-91
persentil ke-2 dan persentil ke-98.
Data apapun yang tidak termasuk dalam
garis harus diplot sebagai pencilan dengan simbol titik, lingkaran kecil, atau bintang, meskipun terkadang hal ini tidak dilakukan. Selain itu, beberapa
Diagram kotak turut menyertakan simbol tambahan untuk menunjukkan nilai rata-rata data.
Variasi
Diagram ini telah memiliki banyak variasi sejak dipopulerkan oleh matematikawan John W. Tukey pada tahun 1969. Dua varian paling umum adalah
Diagram kotak lebar variabel dan plot
kotak berlekuk (lihat Gambar 4).
Plot
kotak lebar variabel menggambarkan ukuran setiap grup yang datanya sedang diplot dengan membuat lebar
kotak proporsional dengan ukuran grup. Konvensi yang populer adalah membuat lebar
kotak proporsional dengan akar kuadrat dari ukuran grup.
Contoh
=
Temperatur udara di suatu tempat diukur tiap jam dalam satuan Fahrenheit. Temperatur yang terukur kemudian disajikan dalam urutan data: 50, 50, 55, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.
Sebuah
Diagram kotak garis kemudian dibuat menggunakan patokan nilai minimum, maksimum, median, kuartil pertama, dan kuartil ketiga dari data temperatur tersebut.
Pada kasus ini, temperatur minimum hari itu adalah 50 °F, maksimum 81 °F, dan median temperatur 70 °F. Kuartil pertama / kuartil bawah data adalah 66 °F, yang mana merupakan nilai tengah antara 50 °F (nilai minimum) dan 70 °F (median). Nilai kuartil ketiga / kuartil atas data temperatur adalah 75 °F, yang mana merupakan nilai tengah antara 70 °F (median) dan 81 °F (maksimum).
Jangkauan interkuartil, atau IQR, kemudian dapat dihitung:
IQR
=
Q
3
−
Q
1
=
75
∘
F
−
66
∘
F
=
9
∘
F
.
{\displaystyle {\text{IQR}}=Q_{3}-Q_{1}=75^{\circ }F-66^{\circ }F=9^{\circ }F.}
Oleh karena itu, didapatkan bahwa
1.5
IQR
=
1.5
⋅
9
∘
F
=
13.5
∘
F
.
{\displaystyle 1.5{\text{IQR}}=1.5\cdot 9^{\circ }F=13.5^{\circ }F.}
1.5 IQR di atas kuartil ketiga adalah:
Q
3
+
1.5
IQR
=
75
∘
F
+
13.5
∘
F
=
88.5
∘
F
.
{\displaystyle Q3+1.5{\text{ IQR}}=75^{\circ }F+13.5^{\circ }F=88.5^{\circ }F.}
Sementara 1.5IQR di bawah kuartil pertama adalah:
Q
1
−
1.5
IQR
=
66
∘
F
−
13.5
∘
F
=
52.5
∘
F
.
{\displaystyle Q_{1}-1.5{\text{ IQR}}=66^{\circ }F-13.5^{\circ }F=52.5^{\circ }F.}
garis bagian atas dari
Diagram kotak garis memanjang dari kuartil ketiga hingga nilai data terbesar yang lebih kecil dari 1.5IQR di atas kuartil ketiga. Pada persoalan ini, 1,5IQR di atas kuartil ketiga adalah 88,5 °F dan nilai maksimum yang berada dalam rentang tersebut adalah 81 °F. Oleh karena itu,
garis bagian atas digambar dari kuartil ketiga hingga 81 °F.
Serupa dengan
garis bagian atas,
garis bagian bawah dari
Diagram kotak garis memanjang dari kuartil pertama hingga nilai data terkecil yang lebih besar dari 1.5IQR di bawah kuartil pertama. Pada persoalan ini, 1,5IQR di bawah kuartil pertama adalah 52,5 °F dan nilai minimum yang memenuhi adalah 55 °F. Dengan demikian,
garis bagian bawah digambar dari kuartil pertama hingga 55 °F.
= Contoh dengan pencilan
=
Pada contoh ini, diberikan kumpulan data terurut: 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 89. Nilai median, kuartil pertama, dan kuartil ketiga sama dengan contoh sebelumnya. Sementara itu, ditambahkan data tambahan pada awal dan akhir sehingga nilai minimum dan maksimumnya berubah menjadi 52 dan 89 berturut-turut.
Pada persoalan ini, nilai maksimum kumpulan data adalah 89 °F, sementara 1.5IQR di atas kuartil ketiga adalah 88,5 °F. Karena nilai maksimum lebih besar daripada kuartil ketiga ditambah 1.5IQR, maka nilai maksimum merupakan pencilan. Oleh karena itu,
garis bagian atas digambar hingga nilai terbesar yang lebih kecil dari 1,5IQR di atas kuartil ketiga, yaitu 79 °F.
Hal yang serupa juga berlaku pada bagian bawah. Nilai minimum kumpulan data ini adalah 52 °F, sementara 1.5IQR di bawah kuartil pertama adalah 52.5 °F. Karena nilai minimum lebih kecil daripada 1.5IQR dikurangi kuartil pertama, maka minimum juga merupakan pencilan. Oleh karena itu,
garis bawah digambar pada nilai terkecil yang lebih besar dari 1,5IQR di bawah kuartil pertama, yaitu 57 °F.
= Dalam kasus kumpulan data besar
=
Persamaan umum untuk menghitung kuantil empiris
q
n
(
p
)
=
x
(
k
)
+
α
(
x
(
k
+
1
)
−
x
(
k
)
)
{\displaystyle q_{n}(p)=x_{(k)}+\alpha (x_{(k+1)}-x_{(k)})}
with
k
=
[
p
(
n
+
1
)
]
and
α
=
p
(
n
+
1
)
−
k
{\displaystyle {\text{with }}k=[p(n+1)]{\text{ and }}\alpha =p(n+1)-k}
Contoh data di atas merupakan kumpulan data dengan 24 titik data, artinya n = 24. Anda juga dapat menghitung median, kuartil pertama, dan kuartil ketiga secara matematis:
Median :
q
n
(
0.5
)
=
q
(
12
)
+
(
0.5
⋅
25
−
12
)
⋅
(
x
(
13
)
−
x
(
12
)
)
=
70
+
(
0.5
⋅
25
−
12
)
⋅
(
70
−
70
)
=
70
{\displaystyle q_{n}(0.5)=q_{(12)}+(0.5\cdot 25-12)\cdot (x_{(13)}-x_{(12)})=70+(0.5\cdot 25-12)\cdot (70-70)=70}
Kuartil pertama :
q
n
(
0.25
)
=
q
(
6
)
+
(
0.25
⋅
25
−
6
)
⋅
(
x
(
7
)
−
x
(
6
)
)
=
66
+
(
0.25
⋅
25
−
6
)
⋅
(
66
−
66
)
=
66
{\displaystyle q_{n}(0.25)=q_{(6)}+(0.25\cdot 25-6)\cdot (x_{(7)}-x_{(6)})=66+(0.25\cdot 25-6)\cdot (66-66)=66}
Kuartil ketiga :
q
n
(
0.75
)
=
q
(
18
)
+
(
0.75
⋅
25
−
18
)
⋅
(
x
(
19
)
−
x
(
18
)
)
=
75
+
(
0.75
⋅
25
−
18
)
⋅
(
75
−
75
)
=
75
{\displaystyle q_{n}(0.75)=q_{(18)}+(0.75\cdot 25-18)\cdot (x_{(19)}-x_{(18)})=75+(0.75\cdot 25-18)\cdot (75-75)=75}
Visualisasi
Diagram kotak garis memungkinkan pemeriksaan grafis yang cepat dari satu atau lebih kumpulan data.
Diagram kotak garis mungkin tampak lebih primitif daripada histogram atau perkiraan kerapatan kernel. Meskipun demikian,
Diagram ini membutuhkan lebih sedikit ruang sehingga sangat berguna untuk membandingkan distribusi antara beberapa kelompok atau kumpulan data (lihat Gambar 1 sebagai contoh). Pemilihan teknik jumlah dan lebar batang dapat sangat memengaruhi tampilan histogram, sementara pilihan lebar pita dapat sangat memengaruhi tampilan perkiraan kepadatan kernel.
Salah satu cara untuk memahami
Diagram kotak garis adalah membandingkannya dengan fungsi kepadatan probabilitas (histogram teoritis) untuk distribusi normal N (0,σ2). Hal ini karena distribusi statistik lebih umum ditemukan daripada
Diagram kotak (Gambar 7).
Lihat pula
Bijeksi
Diagram Venn
Referensi
Bacaan lebih lanjut
John W. Tukey (1977). Exploratory Data Analysis. Addison-Wesley.
Benjamini, Y. (1988). "Opening the Box of a Boxplot". The American Statistician. 42 (4): 257–262. doi:10.2307/2685133. JSTOR 2685133.
Rousseeuw, P. J.; Ruts, I.; Tukey, J. W. (1999). "The Bagplot: A Bivariate Boxplot". The American Statistician. 53 (4): 382–387. doi:10.2307/2686061. JSTOR 2686061.
Pranala luar
Kalkulator
Diagram kotak daring beserta penjelasan dan contoh
Beeswarm Boxplot
Pembuat
Diagram kotak daring yang kompleks dengan contoh data - lihat juga BoxPlotR: perkakas web untuk membuat
Diagram kotak Spitzer et al. Nature Methods 11, 121–122 (2014)