Preprocessing Data pada Machine Learning Python
Machine learning (ML) atau mesin pembelajar merupakan mesin yang dikembangkan untuk dapat belajar sendiri tanpa arahan dari manusia. Machine learning ini merupakan bagian dari artificial intelligence (AI). Terdapat berbagai bahasa pemrograman pula yang digunakan untuk menganalisis menggunakan machine learning., salah satunya adalah machine learning python. Machine learning python ini terbagi menjadi dua yaitu supervised learning dan unsupervised learning.
Bahasa python merupakan bahasa pemrograman yang sering digunakan oleh para praktisi data seperti data engineer, data analyst, data entry, dsb. Bahkan berbagai perusahaan besar seperti YouTube, Netflix, Spotify itu pun juga telah menggunakannya. Bahasa phyton ini memiliki library yang banyak sehingga memudahkan pengguna dalam proses analisis data. Selain itu bahasa python ini termasuk bahasa yang mudah dipelajari dan bahasanya cukup sederhana sehingga cocok untuk para pemula dalam dunia bahasa pemrograman.
1. Supervised Learning dan Unsupervised Learning
Seperti yang telah diketahui bahwa terdapat dua jenis machine learning yaitu supervised learning dan unsupervised learning. Supervised learning merupakan teknik machine learning yang digunakan untuk data yang memiliki label atau kelas.
Teknik ini bisa diterapkan menggunakan metode regresi untuk data kontinu dan metode klasifikasi untuk data diskrit. Adapun unsupervised learning merupakan teknik machine learning yang digunakan untuk data yang tidak memiliki label atau kelas.
Baca juga : Yuk Kenali Macam-Macam Algoritma Machine Learning!
2. Eksplorasi Data
Tahapan pertama dalam proses machine learning adalah eksplorasi data. Eksplorasi data merupakan proses pemahaman terhadap data yang akan dianalisis. Dengan mengeksplorasi data terlebih dahulu, kita dapat menentukan teknik mana yang akan digunakan. Dibawah ini adalah contoh eksplorasi data dengan memahami statistika deskriptif dari data.
Adapun outputnya adalah sebagai berikut
3. Preprocessing Data - Missing Value
Setelah proses eksplorasi data,langkah selanjutnya yang dilakukan adalah proses data pre processing. Dalam tahapan ini kita akan menangani data dengan memeriksa apakah ada missing value pada data yang akan dianalisis.
Sebagai contoh pada suatu dataset kita akan mengecek missing value dan menghitung jumlah missing value pada masing-masing data. Adapun kodenya sebagai berikut
Dengan output sebagai berikut:
4. Preprocessing Data - Scaling
Setelah memahami missing value dan berhasil mengatasinya, selanjutnya adalah proses scaling atau biasa dikenal dengan normalisasi. Ada kalanya data yang dimiliki memiliki rentang yang cukup jauh satu sama lain sehingga perlu dinormalisasi.
Normalisasi data ini membutuhkan nilai minimum dan maksimum. Nilai minimum yang biasa digunakan adalah 0 dan nilai maksimum adalah 1. Sehingga, data memiliki rentang 0 sampai 1. Adapun rumus dari scaling adalah
Baca juga : Kenali Algoritma Klasifikasi Machine Learning Terpopuler di Tahun 2021
Preprocessing data merupakan tahapan penting dalam analisis data. Dengan proses tersebut, data yang akan dianalisis akan lebih siap sehingga hasilnya pun lebih akurat. Kalian bisa mempelajari preprocessing data dari dasar di DQLab loh.
DQLab menyajikan materi secara teori maupun praktek. Selain itu di DQLab juga bekerja sama dengan perusahaan-perusahaan ternama terkait perekrutan profesi data analyst baik sebagai pekerja tetap atau sebagai informasi magang.
Cara bergabungnya sangat mudah. Langsung saja sign up di DQLab.id/signup dan nikmati belajar data science DQLab.
Penulis : Latifah Uswatun Khasanah
Editor : Annissa Widya Davita