Singkatnya Cross Validation adalah metode menguji kualitas model machine learning terutama untuk data yang sedikit
Kita tahu untuk melakukan evaluasi kita perlu membagi dataset menjadi dua yaitu training set dan test set. Pembagian dataset biasanya 80 % training set dan 20 % test set.
Lalu bagaimana kalau dataset terlalu kecil ?
Misal kita hanya memiliki data yang hanya berisi 50 sampel
Kalau memakai aturan 80:20 , maka kita hanya memiliki 40 sampel di training set dan 10 sampel di test set . Ini kurang untuk melihat kualitas sebenarnya dari model machine learning kita.
Dengan menggunakan Cross Validation maka kita bisa memiliki 50 training set dan 50 test set , bagaimana bisa ?
Cara yang dipakai dalam metode Cross Validation adalah dengan melakukan sampel berulang kali
Yang paling umum yaitu 10 fold Cross Validation
yaitu melakukan sample 10 kali , dengan ratio 90% training set dan 10 % test set
Dengan data berjumlah 50 maka :
Pada iterasi pertama akan diambil 40 training set , dan 10 test set
Pada iterasi kedua akan diambil 40 sampel untuk training set dan 10 sampel test set , namun 10 sampel test set yang dipakai kali ini berbeda dari 10 sampel test set yang sebelumnya.
Begitu seterusnya
Dengan cara ini 50 data yang ada bergantian terkadang menjadi training set , terkadang menjadi test set
Hasil prediksi lalu dgabung dari tiap iterasi , sehingga total menjadi 50 sampel , untuk dilihat kualitasnya melalui metrics yang ada , misal accuracy
ARTIKEL INI BELUM SELESAI YAAAAAA
Semua artikel di blog ini akan terus diperbaiki sesuai permintaan , jadi kalau kurang jelas , terlalu singkat , kurang gambar , ada istilah yang kurang dimengerti ,komentar saja di kolom komentar atau kirim WA ke 089636891453 . Saya dengan senang hati memperbaiki artikel :)