Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Preprocessing Data pada Machine Learning Python

Belajar Data Science di Rumah 13-Juli-2022
https://dqlab.id/files/dqlab/cache/3caf527bc5778f6ec15a31c74d5f663f_x_Thumbnail800.jpg

Machine learning (ML) atau mesin pembelajar merupakan mesin yang dikembangkan untuk dapat belajar sendiri tanpa arahan dari manusia. Machine learning ini merupakan bagian dari artificial intelligence (AI). Terdapat berbagai bahasa pemrograman pula yang digunakan untuk menganalisis menggunakan machine learning., salah satunya adalah machine learning python. Machine learning python ini terbagi menjadi dua yaitu supervised learning dan unsupervised learning.


Bahasa python merupakan bahasa pemrograman yang sering digunakan oleh para praktisi data seperti data engineer, data analyst, data entry, dsb. Bahkan berbagai perusahaan besar seperti YouTube, Netflix, Spotify itu pun juga telah menggunakannya. Bahasa phyton ini memiliki library yang banyak sehingga memudahkan pengguna dalam proses analisis data. Selain itu bahasa python ini termasuk bahasa yang mudah dipelajari dan bahasanya cukup sederhana sehingga cocok untuk para pemula dalam dunia bahasa pemrograman.


1. Supervised Learning dan Unsupervised Learning

Seperti yang telah diketahui bahwa terdapat dua jenis machine learning yaitu supervised learning dan unsupervised learning. Supervised learning merupakan teknik machine learning yang digunakan untuk data yang memiliki label atau kelas.


Teknik ini bisa diterapkan menggunakan metode regresi untuk data kontinu dan metode klasifikasi untuk data diskrit. Adapun unsupervised learning merupakan teknik machine learning yang digunakan untuk data yang tidak memiliki label atau kelas. 

machine learning


Baca juga : Yuk Kenali Macam-Macam Algoritma Machine Learning!


2. Eksplorasi Data

Tahapan pertama dalam proses machine learning adalah eksplorasi data. Eksplorasi data merupakan proses pemahaman terhadap data yang akan dianalisis. Dengan mengeksplorasi data terlebih dahulu, kita dapat menentukan teknik mana yang akan digunakan. Dibawah ini adalah contoh eksplorasi data dengan memahami statistika deskriptif dari data.

machine learning

Adapun outputnya adalah sebagai berikut

machine learning


3. Preprocessing Data - Missing Value

Setelah proses eksplorasi data,langkah selanjutnya yang dilakukan adalah proses data pre processing. Dalam tahapan ini kita akan menangani data dengan memeriksa apakah ada missing value pada data yang akan dianalisis.


Sebagai contoh pada suatu dataset kita akan mengecek missing value dan menghitung jumlah missing value pada masing-masing data. Adapun kodenya sebagai berikut

machine learning


Dengan output sebagai berikut:

machine learning


4. Preprocessing Data - Scaling

Setelah memahami missing value dan berhasil mengatasinya, selanjutnya adalah proses scaling atau biasa dikenal dengan normalisasi. Ada kalanya data yang dimiliki memiliki rentang yang cukup jauh satu sama lain sehingga perlu dinormalisasi.


Normalisasi data ini membutuhkan nilai minimum dan maksimum. Nilai minimum yang biasa digunakan adalah 0 dan nilai maksimum adalah 1. Sehingga, data memiliki rentang 0 sampai 1. Adapun rumus dari scaling adalah

machine learning


Baca juga : Kenali Algoritma Klasifikasi Machine Learning Terpopuler di Tahun 2021


Preprocessing data merupakan tahapan penting dalam analisis data. Dengan proses tersebut, data yang akan dianalisis akan lebih siap sehingga hasilnya pun lebih akurat. Kalian bisa mempelajari preprocessing data dari dasar di DQLab loh.


DQLab menyajikan materi secara teori maupun praktek. Selain itu di DQLab juga bekerja sama dengan perusahaan-perusahaan ternama terkait perekrutan profesi data analyst baik sebagai pekerja tetap atau sebagai informasi magang.


Cara bergabungnya sangat mudah. Langsung saja sign up di DQLab.id/signup dan nikmati belajar data science DQLab


Penulis : Latifah Uswatun Khasanah

Editor : Annissa Widya Davita



Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login