GIMANA MEMULAI KARIER JADI DATA ANALYST?
Simak caranya di webinar GRATIS dan raih DOORPRIZE menarik!
DAFTAR SEKARANG!
Pendaftaran ditutup dalam 0 Hari 23 Jam 52 Menit 5 Detik 

Intip Tutorial Data Quality Python untuk Pemula

Belajar Data Science di Rumah 19-April-2022
https://dqlab.id/files/dqlab/cache/8909057c5fdc067bc6bd2132c1d6d38c_x_Thumbnail800.jpg

Bahasa python adalah salah satu bahasa pemrograman yang sedang naik daun pada saat ini. Bahasa ini pun telah digunakan dengan berbagai macam tujuan bahkan perusahaan-perusahaan besar pun telah menggunakannya. Bahasa python ini pun cukup menarik minat para pemula dikarenakan bahasa yang mudah dipahami dan mudah dipelajari. Sekarang pun telah banyak platform yang menyediakan materi dan praktek tutorial python sehingga menjadi peluang bagi kita yang ingin mulai belajar bahasa python.


Pada proses analisis data terhadap salah satu proses yang disebut dengan data quality, pada tahapan ini akan dilakukan preprocessing untuk menghasilkan data yang berkualitas sebelum diterapkan menggunakan algoritma machine learning. Kualitas data merupakan hal penting yang harus diperhatikan agar hasil analisis lebih valid dan akurat. Pada artikel kali ini khususnya kita akan mengenali beberapa tahapan data quality menggunakan tutorial python.


1. Data Profiling

Data profiling merupakan kegiatan merangkum dataset menggunakan statistik deskriptif. Data profiling ini bertujuan untuk memiliki pemahaman yang kuat mengenai data sehingga dapat mulai menyusun framework analisis dan memvisualisasikan data. Langkah awalnya adalah menginisialisasi library ke dalam python menggunakan library Pandas dan diassign sebagai retail_raw. Library yang perlu diimpor adalah library pandas, numpy, io dan pandas_profiling. Contoh importing data terdapat pada gambar berikut dengan contoh dataset yang digunakan adalah file ‘namadata.csv’.


python


Baca juga: Mulai Belajar Coding Python dari Dasar


2. Missing Data

Mayoritas dataset apalagi yang berukuran besar biasanya akan memiliki banyak missing value. Missing value adalah hilangnya beberapa data yang diperoleh dalam dataset. Salah satu penyebab missing value adalah tidak terkumpulnya beberapa informasi. Terdapat beberapa cara dalam menangani missing value yaitu mengabaikan missing value, mengisi missing value (imputasi), dan menghapus baris yang mengandung missing value. Jika pengguna ingin melakukan pengisian terhadap missing value dapat menggunakan function fillna berikut


python

lalu pengguna dapat drop row yang mengandung missing value dengan function dropna berikut ini

python

Adapun contoh kodenya adalah sebagai berikut

python


3. Outliers

Outliers adalah data observasi yang muncul dengan nilai ekstrim, artinya adakalanya data observasi ini nilainya sangat jauh dan beda sama sekali dengan sebagian besar nilai lain di dalam kelompoknya. Adapun penanganan untuk data yang outliers adalah dengan cara membuang, mengisi missing value (imputasi), capping, dan prediction. Biasanya outliers dapat diatasi dengan penentuan IQR (interquartile range) dengan syntax di python 


python


adapun syntax untuk membuang outliersnya adalah 

python

Adapun contoh kode untuk menghapus outliers adalah sebagai berikut

python


4. Deduplikasi Data

Duplikasi data merupakan data yang memiliki kesamaan dalam seluruh kolomnya pada baris-baris tertentu. Duplikasi data ini dapat diatasi dengan cara mengeliminasi baris yang memiliki duplikasi. Proses ini disebut dengan deduplikasi. Adapun syntax untuk mengecek adanya duplikasi data adalah

python

Sedangkan syntax untuk membuang duplikasi data adalah

python

Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python


5. Belajar Atasi Missing Values di DQLab

Missing values bukanlah hal yang asing bagi para praktisi data, bahkan penanganan missing values ini merupakan salah stau tahapan yang perlu dilakukan oleh data scientist. Ingin memahami praktek penanganan missing values dengan lebih paham? Langsung saja coba sign up di DQLab.


DQLab menyediakan berbagai macam modul yang di dalamnya berisi materi berupa teori dan praktek secara live code. Dengan demikian akan lebih memudahkan pengguna dalam proses belajar data science. Cara bergabungnya sangat mudah. Langsung saja sign up di DQLab.id atau isi form dibawah ini dan nikmati belajar data science DQLab


Penulis : Latifah Uswatun Khasanah

Editor : Annissa Widya Davita



Postingan Terkait

Sign Up & Mulai Belajar Gratis di DQLab!