- Source: Galat generalisasi
Untuk aplikasi Pemelajaran terarah dalam pemelajaran mesin dan teori pemelajaran statistik, galat generalisasi atau kesalahan generalisasi(bahasa Inggris: generalization error), juga dikenal sebagai galat luar sampel (out-off-sample error) atau risiko (risk) adalah suatu ukuran sejauh mana suatu algoritma mampu memprediksi nilai dengan akurat untuk data yang sebelumnya tidak terlihat. Karena algoritma pemelajaran dievaluasi pada data sampel yang terbatas, proses evaluasi algoritma pemelajaran dapat dipengaruhi oleh galat pengambilan sampel. Oleh karena itu, pengukuran kesalahan prediksi saat ini mungkin tidak memberikan banyak informasi tentang kemampuan prediksi pada data baru. Galat generalisasi dapat diminimalkan dengan menghindari overfitting dalam algoritma pemelajaran. Kinerja algoritma pemelajaran mesin direpresentasikan oleh grafik yang menunjukkan nilai estimasi galat generalisasi selama proses pemelajaran yang disebut sebagai kurva pembelajaran.
Definisi
Dalam masalah pembelajaran,tujuannya adalah mengembangkan fungsi
f
n
(
x
→
)
{\displaystyle f_{n}({\vec {x}})}
yang memprediksi nilai keluaran
y
{\displaystyle y}
untuk setiap data masukan
x
→
{\displaystyle {\vec {x}}}
. Subskrip
n
{\displaystyle n}
menunjukkan bahwa fungsi
f
n
{\displaystyle f_{n}}
dikembangkan berdasarkan kumpulan data sebanyak
n
{\displaystyle n}
titik data. Galat generalisasi atau kerugian (expected loss) yang diharapkan atau risiko (risk)
I
[
f
]
{\displaystyle I[f]}
dari suatu fungsi tertentu
f
{\displaystyle f}
pada semua nilai mungkin dari
x
→
{\displaystyle {\vec {x}}}
dan
y
{\displaystyle y}
adalah nilai harapan dari fungsi kerugian
V
(
f
)
{\displaystyle V(f)}
:
I
[
f
]
=
∫
X
×
Y
V
(
f
(
x
→
)
,
y
)
ρ
(
x
→
,
y
)
d
x
→
d
y
,
{\displaystyle I[f]=\int _{X\times Y}V(f({\vec {x}}),y)\rho ({\vec {x}},y)d{\vec {x}}dy,}
di mana
ρ
(
x
→
,
y
)
{\displaystyle \rho ({\vec {x}},y)}
adalah distribusi probabilitas bersama yang tidak diketahui untuk
x
→
{\displaystyle {\vec {x}}}
dan
y
{\displaystyle y}
.
Tanpa mengetahui distribusi probabilitas bersama
ρ
{\displaystyle \rho }
, mustahil untuk menghitung
I
[
f
]
{\displaystyle I[f]}
. Sebagai gantinya, kita dapat menghitung galat pada data sampel, yang disebut sebagai galat empiris (atau risiko empiris). Diberikan
n
{\displaystyle n}
titik data, galat empiris dari suatu fungsi kandidat
f
{\displaystyle f}
adalah:
P
G
=
P
(
I
[
f
n
]
−
I
n
[
f
n
]
≤
ϵ
)
≥
1
−
δ
n
{\displaystyle P_{G}=P(I[f_{n}]-I_{n}[f_{n}]\leq \epsilon )\geq 1-\delta _{n}}
Sebuah algoritma dikatakan menggeneralisasi jika:
lim
n
→
∞
I
[
f
]
−
I
n
[
f
]
=
0
{\displaystyle \lim _{n\rightarrow \infty }I[f]-I_{n}[f]=0}
Yang sangat penting adalah galat generalisasi
I
[
f
n
]
{\displaystyle I[f_{n}]}
dari fungsi yang tergantung pada data
f
n
{\displaystyle f_{n}}
yang ditemukan oleh suatu algoritma pembelajaran berdasarkan sampel. Sekali lagi, untuk distribusi probabilitas yang tidak diketahui,
I
[
f
n
]
{\displaystyle I[f_{n}]}
tidak dapat dihitung. Sebagai gantinya, tujuan dari banyak masalah dalam teori pembelajaran statistik adalah untuk membatasi atau menggambarkan perbedaan antara galat generalisasi dan galat empiris secara probabilitas:
I
n
[
f
]
=
1
n
∑
i
=
1
n
V
(
f
(
x
→
i
)
,
y
i
)
{\displaystyle I_{n}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})}
Artinya, tujuannya adalah untuk menggambarkan probabilitas
1
−
δ
n
{\displaystyle 1-\delta _{n}}
bahwa galat generalisasi kurang dari galat empiris ditambah dengan batas galat
ϵ
{\displaystyle \epsilon }
((umumnya tergantung pada
δ
{\displaystyle \delta }
dan
n
{\displaystyle n}
).
Secara khusus, jika suatu algoritma bersifat simetris (urutan input tidak memengaruhi hasil), memiliki kerugian terbatas, dan memenuhi dua kondisi stabilitas, maka algoritma tersebut akan menggeneralisasi. Kondisi stabilitas pertama, stabilitas validasi silang tinggalkan satu (leave-one-out cross-validation), menyatakan bahwa untuk menjadi stabil, kesalahan prediksi untuk setiap titik data ketika validasi silang tinggalkan satu digunakan harus konvergen ke nol saat
n
→
∞
{\displaystyle n\rightarrow \infty }
. Kondisi kedua, stabilitas harapan kesalahan tinggalkan satu (juga dikenal sebagai stabilitas hipotesis jika beroperasi dalam norma
L
1
{\displaystyle L_{1}}
terpenuhi jika prediksi pada titik data yang ditinggalkan tidak berubah ketika satu titik data dihapus dari himpunan data latih.
Kondisi ini dapat diformulasikan sebagai
= Leave-one-out cross-validation Stability
=Suatu algoritma
L
{\displaystyle L}
dikatakan memiliki stabilitas
C
V
l
o
o
{\displaystyle CVloo}
, jikalau untuk setiap
n
{\displaystyle n}
memiliki suatu
β
C
V
(
n
)
{\displaystyle \beta _{CV}^{(n)}}
dan
δ
C
V
(
n
)
{\displaystyle \delta _{CV}^{(n)}}
yang sedemikian sehingga:
∀
i
∈
{
1
,
.
.
.
,
n
}
,
P
S
{
|
V
(
f
S
i
,
z
i
)
−
V
(
f
S
,
z
i
)
|
≤
β
C
V
(
n
)
}
≥
1
−
δ
C
V
(
n
)
{\displaystyle \forall i\in \{1,...,n\},\mathbb {P} _{S}\{|V(f_{S^{i}},z_{i})-V(f_{S},z_{i})|\leq \beta _{CV}^{(n)}\}\geq 1-\delta _{CV}^{(n)}}
dan
β
C
V
(
n
)
{\displaystyle \beta _{CV}^{(n)}}
dan
δ
C
V
(
n
)
{\displaystyle \delta _{CV}^{(n)}}
menuju nol sebagaimana
n
{\displaystyle n}
menuju takhingga.
= Expected-leave-one-out error Stability
=Sebuah algoritma
L
{\displaystyle L}
memiliki stabilitas
E
l
o
o
e
r
r
{\displaystyle Eloo_{err}}
jikalau untuk setiao
n
{\displaystyle n}
memiliki suatu
β
E
L
m
{\displaystyle \beta _{EL}^{m}}
dan
δ
E
L
m
{\displaystyle \delta _{EL}^{m}}
sedemikian sehingga:
∀
i
∈
{
1
,
.
.
.
,
n
}
,
P
S
{
|
I
[
f
S
]
−
1
n
∑
i
=
1
N
V
(
f
S
i
,
z
i
)
|
≤
β
E
L
(
n
)
}
≥
1
−
δ
E
L
(
n
)
{\displaystyle \forall i\in \{1,...,n\},\mathbb {P} _{S}\left\{\left|I[f_{S}]-{\frac {1}{n}}\sum _{i=1}^{N}V\left(f_{S^{i}},z_{i}\right)\right|\leq \beta _{EL}^{(n)}\right\}\geq 1-\delta _{EL}^{(n)}}
dengan
β
E
L
(
n
)
{\displaystyle \beta _{EL}^{(n)}}
dan
δ
E
L
(
n
)
{\displaystyle \delta _{EL}^{(n)}}
menuju nol untuk
n
→
∞
{\displaystyle n\rightarrow \infty }
.
Untuk leave-one-out stability di norma
L
1
{\displaystyle L_{1}}
, hal ini sama dengan stabilitas hipotesis:
E
S
,
z
[
|
V
(
f
S
,
z
)
−
V
(
f
S
i
,
z
)
|
]
≤
β
H
(
n
)
{\displaystyle \mathbb {E} _{S,z}[|V(f_{S},z)-V(f_{S^{i}},z)|]\leq \beta _{H}^{(n)}}
dengan
β
H
(
n
)
{\displaystyle \beta _{H}^{(n)}}
menuju nol sebagaimana
n
{\displaystyle n}
menuju takhingga.
= Algoritma yang terbukti stabil
=Sejumlah algoritma telah terbukti stabil dan sebagai hasilnya memiliki batasan pada galat generalisasinya. Daftar algoritma-algoritma ini dan makalah-makalah yang membuktikan stabilitasnya tersedia di sini.
Relasi terhadap overfitting
Konsep galat generalisasi dan overfitting saling berkaitan erat. Overfitting terjadi ketika fungsi yang dipelajari
f
S
{\displaystyle f_{S}}
menjadi sensitif terhadap noise dalam sampel. Akibatnya, fungsi tersebut akan berperforma baik pada himpunan latih, tetapi tidak akan berperforma baik pada data lain dari distribusi probabilitas bersama
x
{\displaystyle x}
dan
y
{\displaystyle y}
. Oleh karena itu, semakin besar overfitting, semakin besar pula galat generalisasi.
Jumlah overfitting dapat diuji menggunakan metode validasi silang (cross-validation),yang membagi sampel menjadi simulasi sampel latih dan sampel uji. Model kemudian dilatih pada sampel latih dan dievaluasi pada sampel uji. Sampel uji sebelumnya tidak terlihat oleh algoritma dan mewakili sampel acak dari distribusi probabilitas bersamaf
x
{\displaystyle x}
dan
y
{\displaystyle y}
. Sampel uji ini memungkinkan kita untuk mendekati kesalahan yang diharapkan dan sebagai hasilnya mendekati suatu bentuk galat generalisasi tertentu.
Banyak algoritma yang ada untuk mencegah overfitting. Algoritma minimisasi dapat memberikan penalti pada fungsi yang lebih kompleks (dikenal sebagai regularisasi Tikhonov), atau ruang hipotesis dapat dibatasi, baik secara eksplisit dalam bentuk fungsi atau dengan menambahkan batasan pada fungsi minimisasi (regularisasi Ivanov).
Pendekatan untuk menemukan fungsi yang tidak overfit bertentangan dengan tujuan menemukan fungsi yang cukup kompleks untuk menangkap karakteristik khusus dari data. Ini dikenal sebagai bias-variance tradeoff. Menjaga fungsi untuk tetap sederhana untuk menghindari overfitting dapat memperkenalkan bias dalam prediksi yang dihasilkan, sementara memungkinkannya menjadi lebih kompleks dapat menyebabkan overfitting dan variasi yang lebih tinggi dalam prediksi. Tidak mungkin untuk meminimalkan keduanya secara bersamaan.
Referensi
Bacaan lanjutan
Olivier, Bousquet; Luxburg, Ulrike; Rätsch, Gunnar, ed. (2004). Advanced Lectures on Machine Learning. Lecture Notes in Computer Science. 3176. hlm. 169–207. doi:10.1007/b100712. ISBN 978-3-540-23122-6. Diakses tanggal 10 December 2022.
Bousquet, Olivier; Elisseeff, Andr´e (1 March 2002). "Stability and Generalization". The Journal of Machine Learning Research. 2: 499–526. doi:10.1162/153244302760200704. Diakses tanggal 10 December 2022.
Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning, 2nd ed., Boston: MIT Press.
Moody, J.E. (1992), "The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems", in Moody, J.E., Hanson, S.J., and Lippmann, R.P., Advances in Neural Information Processing Systems 4, 847–854.
White, H. (1992b), Artificial Neural Networks: Approximation and Learning Theory, Blackwell.
Kata Kunci Pencarian:
- Galat generalisasi
- Penelitian kuantitatif
- Stereotipe
- Hukum Gossen
- Metodologi survei
- Silogisme
- Bilangan prima
- Daftar kata serapan dari bahasa Inggris dalam bahasa Indonesia
- Rasisme
- Tabel periodik