Langkah Awal dalam Pemrosesan Data: Data Preprocessing dalam Data Mining
Data preprocessing merupakan sekumpulan teknik yang diterapkan pada database untuk menghapus noise, missing value, dan data yang tidak konsisten. Data preprocessing dibagi menjadi beberapa langkah, yaitu cleaning data, data transformation, dan data reduction. Data preprocessing ini digunakan karena dalam data realtime database seringkali tidak lengkap dan tidak konsisten sehingga mengakibatkan hasil data mining tidak tepat dan kurang akurat. Oleh karena itu, untuk meningkatkan kualitas data yang akan dianalisis, perlu dilakukan langkah-langkah preprocessing data. Langkah-langkah tersebut tidak harus semuanya dilakukan. Seorang peneliti maupun data scientist perlu mengetahui langkah-langkah apa yang perlu dilakukan pada database yang ia miliki.
Pada data mining, data preprocessing merupakan salah satu langkah penting agar data dapat diolah sesuai dengan metode dan tools yang digunakan. Data yang baru saja dikumpulkan pasti mengandung kesalahan, missing value, error, dan data-data yang tidak penting lainnya khususnya data primer yang diambil dari internet, seperti data review produk, data dari sosial media, dan lain sebagainya. Hal ini menyebabkan seorang data scientist harus memahami langkah-langkah data preprocessing agar data yang ia gunakan tepat sasaran dan menghasilkan hasil analisis yang akurat. Pada artikel kali ini, DQLab akan menjelaskan langkah-langkah pada data preprocessing hingga data siap untuk diolah lebih lanjut. Yuk simak artikel ini sampai akhir!
1. Data Cleaning
Data yang baru saja dikumpulkan kemungkinan besar memiliki banyak bagian yang tidak relevan bahkan ada bagian yang hilang. Oleh karena itu perlu adanya proses pembersihan data atau biasa dikenal dengan data cleaning. Hal yang bisa diatasi menggunakan data cleaning adalah penanganan missing value dan noise. Missing value merupakan kondisi dimana adanya data yang hilang atau tidak lengkap di dalam database. Cara untuk mengatasi missing value adalah dengan mengabaikan tupel dan mengisi missing value tersebut. Pengabaian tuple cocok digunakan jika dataset yang digunakan cukup besar dan ada beberapa missing value dalam sebuah tupel. Pengisian missing value dapat dilakukan dengan beberapa cara, seperti mengisi manual missing value tersebut dengan mean atau nilai lain sesuai dengan jenis data. Noise merupakan data yang tidak berguna yang tidak dapat diinterpretasikan oleh tools. Noise ini muncul karena pengumpulan data yang salah, entri data yang kurang tepat, dan lain sebagainya.
Baca juga : Ini yang Akan Kamu Pelajari di Kelas Data Science DQLab!
2. Data Transformation
Data transformation digunakan untuk mengubah data dalam bentuk yang sesuai dalam proses data mining. Beberapa teknik untuk data transformation adalah normalization, pemilihan attribute, dan discretization. Normalization dilakukan untuk menskalakan nilai data dalam rentang nilai tertentu, misalnya -1 sampai 1 atau 0 sampai 1. Teknik kedua adalah pemilihan atribut. Pemilihan atribute merupakan proses pemilihan atribut yang diberikan untuk proses data mining. Terakhir adalah teknik discretization. Teknik ini dilakukan untuk mengganti raw value pada atribut numerik dengan nilai interval.
3. Data Reduction
Analisis data yang menggunakan dataset dalam ukuran besar akan sangat sulit dilakukan, oleh karena itu, perlu adanya teknik data reduction dengan tujuan untuk meningkatkan efisiensi penyimpanan serta mengurangi biaya penyimpanan dan analisis data. Data reduction dibagi menjadi beberapa teknik, yaitu Data Cube Aggregation, Attribute Subset Selection, Numerosity Reduction, dan Dimensionality Reduction. Teknik-teknik ini memiliki fungsi dan tujuan masing-masing.
Baca juga : Mengenal Profesi Data Scientist
4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!
Nikamati belajar data science secara praktis dan aplikatif bersama DQLab! Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:
Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.
Penulis : Galuh Nurvinda
Editor : Annissa Widya Davita