Ragam Data Training pada Tipe Machine Learning

Belajar Data Science di Rumah 01-Februari-2023

https://dqlab.id/files/dqlab/cache/75f57577d9b7718342bf6943daa93d75_x_Thumbnail800.jpeg

Machine learning erat kaitannya dengan dua tipe dalam melakukan pengujian data. Ada yang disebut dengan data testing dan ada juga yang disebut dengan data training. Kadang-kadang dalam menyusun model machine learning ini, dua hal seringkali diperdebatkan. Sering mereka menghadapi situasi dimana terdapat perbedaan antara dataset training dengan dataset testing ditinjau dari segi tingkat kesalahannya.

Dalam konsep machine learning, sahabat DQLab juga perlu paham konsep turunan bahwa data testing dan data training ini punya dua hal utama yang dipakai untuk evaluasi model yaitu akurasi dan generalisasi. Akurasi menggambarkan seberapa baik suatu model machine learning dapat memprediksi nilai target yang tepat sesuai dengan sasaran. Sedangkan, generalisasi berarti seberapa baik model berperilaku pada data yang terlihat dan data yang tidak terlihat.

Penentuan akurasi dan generalisasi ini nantinya akan menghasilkan tiga tipe sesuai dengan kondisi pada model machine learning yaitu overfitting, underfitting dan best fitting. Underfitting berarti model tersebut memiliki skor akurasi yang rendah pada data training dan data testing. Selanjutnya overfitting memiliki skor akurasi tinggi pada data training, tetapi skor rendah pada data testing. overfitting memiliki skor akurasi tinggi pada data training, tetapi skor rendah pada data testing. Ini berarti model yang dibuat tidak digeneralisasi.

Model dianggap best fitting ketika digeneralisasikan dan berperilaku kurang lebih dengan cara yang sama, baik pada data training, maupun data testing. Lalu, bagaimana perbedaan antar ketiganya? Jawabannya kamu bisa temukan lewat artikel berikut ini. Simak yuk sahabat DQLab!

1. Kita Mulai dengan Studi Kasus

Sebelum mulai untuk membahas perbedaan antara overfitting, underfitting maupun best fitting, kita coba jabarkan dalam bentuk studi kasus agar kamu jadi lebih paham.

Anggap saja ada 3 orang mahasiswa dan satu orang profesor (kita sebut profesor WW) pada kelas Biokimia. Pertama sebut saja mahasiswa O. O ini ternyata tidak tertarik dengan apa yang diajarkan di kelas. Sudah pasti karena dia tidak tertarik dengan apa yang diajarkan di kelas oleh profesor mereka. Kedua, ada mahasiswa R. Berbeda dengan mahasiswa O, justru mahasiswa R ini antusias terhadap materi yang diajarkan oleh profesor.

Machine Learning

Alhasil dia ini berfokus untuk menghafal setiap pertanyaan yang diajarkan di kelas daripada konsep dasarnya. Mahasiswa R ini ingin jadi mahasiswa yang selalu aktif dan suka banget tanya-tanya. R menghindari adanya pemecahan masalah. Ada lagi namanya mahasiswa C. Dari dua mahasiswa sebelumnya, mahasiswa C ini suka banget mempelajari konsep dasar maupun pemecahan masalah di kelas Biokimia ketimbang menghafal setiap pertanyaan.

2. Overfitting

Singkat cerita, profesor WW ini sekilas memberikan kuis yang mudah. Kuis ini dilakukan secara harian. Namun, kuis ini bagi ketiga mahasiswa rasa-rasanya sulit untuk ditaklukkan ketika menghadapi ujian tiba. Mungkin ini sama juga yang dirasakan sama kalian sahabat DQ kalau dapat dosen yang killer atau suka menjebak mahasiswanya, salah satunya dengan memberikan soal kuis yang sulit. Terus, tiga mahasiswa tadi kebetulan sudah melangsungkan ujian bersama profesor. Hal-hal yang diujikan adalah rangkuman dari seluruh materi yang sudah diajarkan di kelas.

Machine Learning

Kita ingat-ingat lagi karakter yang dibawa masing-masing mahasiswa saat di kelas profesor WW tadi. Berdasarkan hasil perhitungan, mahasiswa R mendapatkan skor kuis 98% dan skor ujian semester 67%. Hal ini terjadi karena mahasiswa R merupakan tipikal mahasiswa yang menghafal setiap pertanyaannya jadi wajar kalau skor kuisnya ini tinggi. Skor kuis ini kita asumsikan seperti data training. Namun, sayangnya saat ujian ternyata mahasiswa R ini tidak mampu untuk menjawab pertanyaan yang belum pernah ia lihat. Saat ujian ini disimbolkan dengan data testing. Oleh karena itu, kasus mahasiswa R ini disebut dengan overfitting.

3. Underfitting

Kita coba contohkan untuk underfitting. Masih ingat kasus mahasiswa O kan? Ternyata setelah menyelesaikan tes dan kuis, mahasiswa O justru mendapatkan skor 50% saat kuis dan 47% saat ujian akhir. Karakter mahasiswa O memang sudah terbaca dari awal karena dia tidak memperhatikan apa yang diajarkan beliau di kelas membawa dirinya mendapatkan nilai rendah di kedua tes tersebut. Skor kuis yang rendah dan skor tes yang sama-sama rendah inilah yang disebut sebagai underfitting.

Machine Learning

4. Best Fitting

Terakhir, ada mahasiswa C. Setelah melewati kuis dan ujian, mahasiswa C mendapatkan skor kuis 92% dan skor ujian sebesar 89%. Bisa dibilang mahasiswa C adalah mahasiswa ideal. Kenapa? Sebab, mahasiswa C ini menonjol di kedua subtesnya yang mana sama-sama mendapatkan skor tinggi. Mahasiswa C di dalam kelas tidak hanya menghafalkan setiap pertanyaan yang ada dikelas dan bagaimana pemecahan masalahnya. Mahasiswa C ini juga tidak melupakan konsep dasarnya sehingga memudahkan dalam menjawab soal-soal yang diujikan profesor WW tadi. Hal inilah yang membuat mahasiswa C mendapatkan skor training dan testing yang tinggi dan sama-sama saling mendekati. Konsep ini disebut sebagai best fitting.

Machine Learning

5. Perbedaan Overfitting, Underfitting dan Best Fitting

Dari penjelasan studi kasus diatas, kalian bisa menyimpulkan bahwa overfitting, underfitting, dan best fitting memiliki perbedaan yang cukup signifikan. Underfitting merupakan kondisi saat nilai akurasi data training rendah diikuti dengan nilai akurasi data testing yang rendah.

Overfitting adalah kondisi dimana nilai akurasi pada data training tinggi dengan nilai akurasi data testing rendah. Kondisi best fitting merupakan kondisi yang paling ideal antara nilai akurasi pada data testing dan data training sama-sama tinggi. Maka dari itu, untuk membangun model machine learning pilihlah kondisi best fitting. Meskipun memang sama-sama tinggi tapi nilai bias dan variansinya rendah.

Machine Learning

Penggunaan tipe machine learning yang sesuai dengan kebutuhan tentunya menjadi suatu keharusan yang perlu dilaksanakan. Sebelum itu kamu perlu memahami terlebih dahulu apa saja tipe machine learning dan bagaimana cara penggunaannya. Kamu bisa coba belajar dari dasar di DQLab.

DQLab menyajikan materi secara teori maupun praktek. Selain itu di DQLab pun menyediakan berbagai modul dan ebook dengan materi yang beragam sesuai kebutuhan. Cara bergabungnya sangat mudah. Langsung saja sign up di DQLab.id dan nikmati belajar data science DQLab.

Penulis: Reyvan Maulid

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Ragam Data Training pada Tipe Machine Learning

1. Kita Mulai dengan Studi Kasus

2. Overfitting

3. Underfitting

4. Best Fitting

5. Perbedaan Overfitting, Underfitting dan Best Fitting

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab