Kenali Teknik Preprocessing untuk Mengolah Big Data

Belajar Data Science di Rumah 14-Juli-2021

https://dqlab.id/files/dqlab/cache/134e0ed1069023523dfe54cde62ab565_x_Thumbnail800.jpg

Preprocessing data adalah langkah dalam data mining untuk mendapatkan data bersih dari kumpulan raw data dan mengubahnya menjadi format yang dapat dipahami dan dibaca oleh komputer dan model machine learning. Data mining banyak digunakan untuk mengumpulkan data bervolume dan berukuran besar dalam berbagai bentuk, seperti teks, gambar, video, dan lain sebagainya yang masih sangat berantakan. Raw data yang baru diambil tidak hanya mengandung banyak kesalahan, tetapi juga inkonsistensi dan beberapa missing data. Data yang berukuran dan bervolume besar ini biasa dikenal dengan big data. Big data ini banyak dimanfaatkan untuk mengembangkan model machine learning dan hasilnya dapat digunakan sebagai bahan pertimbangan untuk memutuskan kebijakan yang harus diambil.

Dalam pelatihan machine learning menggunakan big data, terdapat istilah "garbage in, garbage out" yang artinya, jika seorang data scientist menggunakan data yang buruk atau kotor untuk melatih model machine learning, maka output yang dihasilkan pun akan buruk dan model yang dihasilkan tidak akan relevan dengan analisis yang sedang dilakukan. Oleh karena itu, sebelum mengolah data, khususnya big data, ada beberapa teknik preprocessing data yang harus dilakukan agar output yang dihasilkan akurat. Mau tahu apa saja teknik preprocessing data tersebut? Yuk simak artikel ini sampai akhir!

1. Apa itu Big Data

Sebelum menginjak ke preprocessing data, kita harus mengenal dulu apa sebenarnya yang dimaksud dengan big data. Ada tiga hal yang membedakan big data dengan data tradisional. Big data memiliki tiga karakteristik yang tidak dimiliki data tradisional, yaitu volume, variety, dan velocity. Maksud dari karakteristik volume adalah, big data merupakan data yang ukurannya sangat besar yang membutuhkan banyak ruang memori dan biasanya didistribusikan dengan banyak komputer. Ukurannya sudah bukan gigabyte, tetapi terabyte, petabyte, bahkan exabyte. Maksud dari karakteristik variety adalah big data memiliki jenis data yang beragam. Tidak hanya angka dan teks, tetapi juga data gambar, file audio, data seluler, video, dan lain sebagainya. Terakhir, maksud dari karakteristik velocity adalah kecepatan produksi dan penambahan data yang sangat tinggi. Saat ini produksi data di dunia bisa mencapai jutaan data per hari hanya dari satu sumber data. Bayangkan ada berapa sumber data di dunia ini? Berapa jumlah data total yang bisa diproduksi dunia dalam sehari?

2. Teknik Data Cleaning dalam Preprocessing Data

Data cleaning adalah proses menambahkan data yang hilang, memperbaiki, mengoreksi, atau menghapus data yang salah dan tidak relevan dari kumpulan data. Data cleansing merupakan salah satu teknik preprocessing data yang paling penting karena pada teknik ini data akan dipastikan siap untuk digunakan. Data cleansing akan memperbaiki semua data yang hilang dengan mengganti data hilang tersebut dengan nilai mean, median, atau modus, tergantung dari jenis data yang digunakan.

3. Teknik Data Transformation dalam Preprocessing Data

Setelah data dibersihkan, maka data siap untuk dimodifikasi menggunakan teknik transformasi data. Pada teknik ini, data akan diubah menjadi format yang tepat dan sesuai untuk analisis. Ada beberapa jenis transformasi data, pertama adalah agregasi. Pada teknik ini, data akan digabungkan menjadi satu format yang seragam. Teknik kedua adalah normalisasi. Normalisasi akan menskalakan data dalam suatu rentang yang teratur sehingga kita dapat membandingkan data dengan lebih akurat. Ketiga adalah fitur selection. Pada teknik ini kita akan memutuskan variabel mana yang paling penting untuk dianalisis.

4. Teknik Data Reduction dalam Preprocessing Data

Semakin banyak data yang digunakan, maka proses analisisnya akan semakin sulit. Terkadang kita memiliki banyak data tetapi tidak semuanya kita butuhkan, terutama saat kita akan menganalisis teks. Banyak kata yang berlebihan dan tidak relevan dengan analisis sehingga kita memerlukan proses data reduction untuk mengurangi data-data yang tidak relevan tersebut. Data reduction tidak hanya membuat analisis lebih mudah dan akurat, tetapi juga menghemat ruang penyimpanan data. Teknik ini juga akan membantu kita untuk mengidentifikasi fitur yang paling penting untuk proses analisis.

5. Belajar Teknik Pengolahan Data

Setelah berhasil membersihkan dan mengubah format data sesuai kebutuhan, kita perlu mengolah data tersebut menggunakan metode yang paling cocok dan sesuai dengan tujuan yang ingin dicapai. Untuk mengolah data, perlu keahlian khusus karena perlu dilakukan secara hati-hati. Terkadang, metode pengolahan data juga terdiri dari berbagai steps yang tidak bisa ditukar atau dilewati. Selain itu, untuk mengolah big data perlu tools yang mumpuni agar proses pengolahan data lebih cepat dan efisien. Tertarik untuk mempelajari teknik dan tools pengolahan big data? Yuk bergabung bersama DQLab! DQLab memiliki berbagai modul menarik terkait metode dan tools pengolahan big data yang banyak digunakan di dunia industri. Selain itu, data yang digunakan untuk latihan merupakan data yang mencerminkan data di dunia industri sehingga kita bisa mengenal gambaran data real di berbagai industri. Kunjungi DQLab atau klik tombol di bawah ini dan nikmati modul gratis "Introduce to Data Science" sebagai langkah awal mengenal tools dan teknik pengolahan big data. Selamat belajar!

Penulis: Galuh Nurvinda K

Editor: Annissa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.