Pentingnya Preprocessing dalam Pengolahan Data Statistik

Belajar Data Science di Rumah 11-April-2021

https://dqlab.id/files/dqlab/cache/03c692acb133049b91d578d14af6522f_x_Thumbnail800.jpg

Preprocessing data merupakan teknik awal data mining untuk mengubah data mentah atau biasa dikenal dengan raw data yang dikumpulkan dari berbagai sumber menjadi informasi yang lebih bersih dan bisa digunakan untuk pengolahan selanjutnya. Proses ini bisa juga disebut dengan langkah awal untuk mengambil semua informasi yang tersedia dengan cara membersihkan, memfilter, dan menggabungkan data-data tersebut. 3 masalah umum yang diselesaikan dalam tahap preprocessing adalah menangani missing value, data noise, dan data yang tidak konsisten. Missing value merupakan data yang tidak akurat karena informasi yang hilang menyebabkan informasi yang ada di dalamnya tidak relevan. Missing value sering terjadi ketika ada masalah dalam proses pengumpulan, seperti kesalahan dalam entry data atau masalah dalam penggunaan biometrik. Data noise berisi data yang salah dan pencilan yang dapat ditemukan di kumpulan data. Pencilan dan data salah ini berisi informasi yang tidak berarti. Beberapa penyebab adanya data noise adalah karena kesalahan manusia berupa kesalahan pemberian label dan masalah lain selama pengumpulan data. Inkonsisten data terjadi ketika seseorang menyimpan file yang berisi data yang sama dengan format yang berbeda-beda. Beberapa inkonsisten data adalah duplikasi dalam format yang berbeda, kesalahan pada kode nama, dan lain sebagainya.

Preprocessing data sangat penting karena kesalahan, redundan, missing value, dan data yang tidak konsisten menyebabkan berkurangnya akurasi hasil analisis. Jadi, sebelum mengolah data, kita harus memastikan bahwa data yang akan kita gunakan merupakan data "bersih". Ada beberapa cara yang bisa digunakan untuk membersihkan data, tergantung dari jenis masalah yang ada dalam kumpulan data. Pada artikel kali ini, DQLab akan membahas cara-cara membersihkan data sebelum mengolah data statistik. Jadi tunggu apa lagi? Yuk simak artikel berikut sampai akhir!

1. Data Cleaning

Data set yang baru dikumpulkan pasti memiliki missing value atau noise. Hal ini karena proses pengumpulan datanya tidak sempurna sehingga ada banyak bagian yang tidak relevan dan hilang. Metode yang harus digunakan untuk mengatasi missing value dan noise disebut dengan data cleaning. Data cleaning dibagi menjadi dua. yaitu data cleaning untuk missing value dan data cleaning untuk data noise. Untuk menangani missing value, kita bisa mengabaikan bagian kumpulan data yang hilang yang disebut dengan tupel. Namun, cara ini hanya dapat dilakukan jika kita memiliki kumpulan big data yang memiliki beberapa missing value dalam tupel yang sama. Namun, jika data yang kita miliki tidak terlalu besar, pendekatan lain yang bisa digunakan adalah dengan mengisi missing value tersebut dengan memasukan suatu nilai secara manual maupun menggunakan proses komputasi. Biasanya, missing value akan diisi dengan mean atau modus, tergantung dari jenis datanya. Data cleaning yang kedua adalah data cleaning untuk data noise. Penanganan data noise ini bertujuan untuk mempermudah proses interpretasi. Beberapa teknik data cleaning yang bisa digunakan untuk menangani noise adalah binning, regresi, dan clustering.

2. Transformasi Data

Setelah menangani missing value dan data noise, preprocessing data berlanjut ke tahap transformasi. Dalam tahap ini, kita akan mengubah data menjadi "bentuk" yang sesuai dengan metode analisis. Ada beberapa cara untuk melakukan transformasi data, yaitu normalization, attribute selection, discretization, dan konsep hierarchy generation. Normalization adalah proses menskalakan nilai data dalam rentang yang telah ditentukan sebelumnya. attribute selection merupakan prose yang menggunakan atribut untuk membuat data baru sehingga dapat mengatur kumpulan data dan membantu menganalisis data yang tersembunyi. Teknik discretization merupakan proses transformasi data dengan mengganti nilai mentah atribut numerik dengan interval.

3. Mengurangi Data

Memilah kumpulan data yang berukuran besar baik secara manual maupun otomatis membutuhkan waktu yang cukup lama. Oleh karena itu, perlu adanya proses pengurangan data untuk membatasi kumpulan data sehingga meningkatkan efisiensi penyimpanan sekaligus mengurangi biaya uang dan waktu. Proses mengurangi data atau disebut juga dengan reduksi data merupakan proses kompleks yang melibatkan beberapa langkah, yaitu Data Cube Aggregation, Attribute Subset Selection, Numerosity Reduction, dan Dimensionality Reduction. Dalam Data Cube Aggregation, data kubus merupakan array multidimensi yang dihasilkan dari data organization. Untuk mendapatkannya, kita bisa menggunakan operasi agregasi yang bisa memperoleh satu nilai untuk sekumpulan data. Attribute Subset Selection artinya memilih atribut yang paling relevan dalam sekumpulan data yang akan digunakan dan sisanya akan dibuang. Untuk memilih subset, kita bisa menggunakan batas minimum yang harus dicapai oleh semua atribut. Semua atribut yang di bawah ambang batas minimal akan secara otomatis dibuang. Teknik Numerosity Reduction adalah teknik reduksi data yang menggantikan data asli dengan representasi data yang lebih kecil. Teknik Dimensionality Reduction merupakan teknik reduksi data dengan mengurangi ukurannya.

4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!

Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:

Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.

Penulis : Galuh Nurvinda

Editor : Annissa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Pentingnya Preprocessing dalam Pengolahan Data Statistik

1. Data Cleaning

2. Transformasi Data

3. Mengurangi Data

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab