Kenali Cross Validation dalam Model Machine Learning

Belajar Data Science di Rumah 03-Oktober-2023

https://dqlab.id/files/dqlab/cache/kv-2-banner-longtail-selasa-07-2023-10-03-180830_x_Thumbnail800.jpg

Cross validation merupakan salah satu model yang digunakan dalam machine learning untuk mengukur seberapa baik kinerja model machine learning secara objektif.

Tujuannya adalah untuk menghindari overfitting (ketika model terlalu sesuai dengan data pelatihan tetapi tidak dapat menggeneralisasi dengan baik pada data baru) dan memperoleh perkiraan yang lebih konsisten tentang seberapa baik model akan berkinerja pada data yang belum pernah dilihat sebelumnya.

Proses cross-validation melibatkan pembagian dataset menjadi dua set: satu set digunakan untuk pelatihan model (disebut sebagai training set), dan yang lainnya digunakan untuk menguji model (disebut sebagai validation atau test set).

Cross-validation adalah salah satu teknik yang sangat penting dalam evaluasi dan pengujian model machine learning. Teknik ini adalah proses pengujian model untuk mengukur sejauh mana model tersebut mampu melakukan generalisasi pada data yang tidak terlihat selama pelatihan.

Tujuan utama cross-validation adalah untuk menghindari overfitting (ketika model terlalu "memorisi" data pelatihan dan tidak dapat menggeneralisasi dengan baik pada data baru) dan untuk mendapatkan perkiraan yang lebih stabil tentang kinerja model. Berikut adalah beberapa konsep dasar yang perlu kalian ketahui dalam penggunaan model cross-validation. Simak yuk sahabat DQLab!

1. Data Training dan Data Testing

Dalam cross-validation, dataset dibagi menjadi dua bagian utama: data pelatihan dan data pengujian. Data pelatihan digunakan untuk melatih model, sementara data pengujian digunakan untuk menguji kinerja model.

Machine Learning

Sumber Gambar: G2 Learn Hub

2. K-Fold Cross Validation

Model kedua dalam cross validation adalah K-Fold Cross Validation. Model ini merupakan model yang paling umum digunakan. Dalam K-Fold Cross-Validation, dataset dibagi menjadi K subset (biasanya 5 atau 10).

Model dilatih dan diuji K kali, di mana setiap subset digunakan satu kali sebagai data pengujian, sementara subset lainnya digunakan sebagai data pelatihan. Kinerja model diukur dengan metrik tertentu (misalnya, akurasi) di setiap iterasi, dan hasilnya diambil rata-rata atau digunakan untuk mengevaluasi model secara keseluruhan.

3. Holdout Validation

Metode holdout validation merupakan metode cross validation yang lebih sederhana. Dalam holdout validation, dataset dibagi menjadi dua bagian: data pelatihan dan data pengujian. Biasanya, sebagian besar data (misalnya, 70-80%) digunakan untuk pelatihan, dan sisanya digunakan untuk pengujian.

Machine Learning

Sumber Gambar: Analytics Yogi

4. Leave-One-Out Cross Validation

Selanjutnya adalah LOOCV atau Leave-One-Out Cross Validation. Model ini merupakan bentuk khusus dari cross-validation di mana setiap sampel individu dianggap sebagai data pengujian, sementara semua sampel lainnya digunakan sebagai data pelatihan. Model ini cocok untuk dataset kecil, tetapi dapat menjadi sangat mahal secara komputasi untuk dataset yang besar.

Ternyata pada machine learning ada banyak sekali model dan algoritma yang digunakan. Dimana ya bisa belajar semua materi tersebut? Tenang, DQLab solusinya. Modul ajarnya lengkap dan bervariasi. Semua skill yang dibutuhkan akan diajarkan. Dilengkapi studi kasus yang membantu kalian belajar memecahkan masalah dari berbagai industri.

Bahkan diintegrasikan dengan ChatGPT. Manfaatnya apa?

Membantu kalian menjelaskan lebih detail code yang sedang dipelajari
Membantu menemukan code yang salah atau tidak sesuai
Memberikan solusi atas problem yang dihadapi pada code
Membantu kalian belajar kapanpun dan dimanapun

Selain itu, DQLab juga menggunakan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Tunggu apa lagi, segera Sign Up dan persiapkan diri untuk menguasai machine learning dengan ikuti DQLab LiveClass Bootcamp Machine Learning and AI for Beginner!

Penulis: Reyvan Maulid

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Kenali Cross Validation dalam Model Machine Learning

1. Data Training dan Data Testing

2. K-Fold Cross Validation

3. Holdout Validation

4. Leave-One-Out Cross Validation

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab