Perhatikan Pengolahan Data Statistik Ini untuk Lakukan Enrichment Datamu

Perhatikan Pengolahan Data Statistik Ini untuk Lakukan Enrichment Datamu

Belajar Data Science di Rumah 23-Oktober-2020
https://dqlab.id/files/dqlab/cache/cf0f8dc968ebbbc126a60058bb2ad3e5_100_persen.png

Saat ini, pengolahan data statistik merupakan komponen penting yang bisa menghasilkan informasi terhadap data yang dimiliki. Pada era digital transformation seperti ini, pengolahan data statistik dengan tahapan yang rinci dan terarah akan sangat menguntungkan karena akan menghasilkan informasi yang sangat bermanfaat bagi penggunanya. Namun, kamu tidak selalu mendapatkan data yang mulus, bisa saja dan banyak sekali kasus bahwa kamu akan mendapatkan data yang kotor atau belum terstandarisasi dengan baik. Sehingga kamu harus memperbaiki dengan sangat hati hati. Karena jika kamu tidak berhati hati kamu akan merusak komposisi data tersebut. Salah satu cara untuk memperbaiki data adalah dengan melakukan enrichment terhadap data yang kotor. 


Data enrichment adalah proses pengisian data yang hilang atau menambah data baik dari sumber internal maupun eksternal dengan cara mengkorelasikan berdasarkan beberapa kolom tertentu sehingga analisa data lebih tajam. Sebagai contoh, data Nilai Belanja Setahun yang kosong dapat diisi dengan nilai rata-rata (mean) dari keseluruhan data. Contoh lain, data kode pos yang kosong dapat diisi jika kita memiliki master kode pos. Atau dengan cara mencari dari alamat lain yang mirip dan terisi kode posnya. 

Yuk bersama DQLab pahami lebih lanjut terkait pengolahan data statistik untuk data enrichment !

1. Yuk, Enrichment Missing Value dengan Mean

 

rataan <- mean(nama.tabel$nama.kolom,na.rm=TRUE)

nama.tabel$nama.kolom[is.na(nama.tabel$nama.kolom)]<-rataan

 

Fungsi diatas, merupakan cara yang dapat kamu lakukan untuk menemukan nilai rata rata hingga mengisi missing value pada kolom tersebut. Fungsi pada baris pertama dapat diartikan sebagai proses pencarian nilai rata rata yang dimiliki oleh suatu kolom pada suatu tabel di dalam dataset yang kamu miliki. Sementara pada baris kedua adalah fungsi untuk melakukan pengisian nilai terhadap kolom yang memiliki nilai null dengan menggunakan nilai rata rata yang sudah dihitung sebelumnya. Sehingga, nilai null atau nilai yang kosong pada kolom terdefinisi akan terisi dengan mean terhitung. 

 

Baca Juga : Kombinasikan Teknik Pengolahan Data untuk Bangun Insight dan Visualisasi Data Agar Semakin Menarik Belajar Data Science di Rumah

 

2. Enrichment Juga Bisa Menggunakan Median Lho

ntengah <- mean(nama.tabel$nama.kolom,na.rm=TRUE)

nama.tabel$nama.kolom[is.na(nama.tabel$nama.kolom)]<-ntengah

 

Ternyata nilai tengah atau akrab kita kenal sebagai median dalam ilmu statistik dapat mengisi kekosongan value pada dataset. Yuk perhatikan fungsi diatas! Sama halnya dengan mean, fungsi yang ada merupakan cara yang dapat kamu lakukan untuk menemukan nilai tengah hingga mengisi missing value pada kolom tersebut. Fungsi pada baris pertama dapat diartikan sebagai proses pencarian nilai tengah atau median yang dimiliki oleh suatu kolom pada suatu tabel di dalam dataset yang kamu miliki. Sementara pada baris kedua adalah fungsi untuk melakukan pengisian nilai terhadap kolom yang memiliki nilai null dengan menggunakan nilai tengah yang sudah dihitung sebelumnya. Sehingga, nilai null atau nilai yang kosong pada kolom terdefinisi akan terisi dengan median terhitung. 

 

3. Yuk, Rapikan Datamu dengan Konsolidasi Data Akhir

Data enrichment adalah proses pengisian data yang hilang atau menambah data baik dari sumber internal maupun eksternal dengan cara mengkorelasikan berdasarkan beberapa kolom tertentu sehingga analisa data lebih tajam. Kamu juga dapat menerapkan teknik grouping duplikat juga memungkinkan kita melakukan enrichment. 

 

Pada pembelajaran data science di DQLab kamu akan dapat melakukan proses muali dari awal mengcrawl data hingga memunculkan insight seperti pengisian kolom yang kosong diisi dengan perhitungan nilai rata-rata menggunakan function mean dan atau nilai tengah menggunakan function median, atau bahkan mengisi data yang kosong dengan melakukan grouping duplikat dari kolom alamat. 

 

Pada bagian terakhir cleansing data kita juga mengkonsolidasikan seluruh data mulai dari hasil standarisasi, grouping duplikat dan pengisian missing value. Dengan demikian, hasil konsolidasi terlihat jauh lebih rapi dengan lebih banyak informasi seperti informasi yang telah diisi dan terstandarisasi.

 

Baca Juga : Metode Pengolahan Data dengan Machine Learning untuk Perbaikan Forecasting Bisnismu

 

4. Yuk, Bersama DQLab Belajar Teknik Pengolahan Data Dari Hulu Hingga Hilir, Gratis!!

Terapkan ilmunya sekarang dengan bergabung bersama platform belajar online DQLab! Selain bisa meningkatkan ilmu data yang dimiliki, kamu juga bisa membangun portofolio datamu di DQLab guna mempersiapkan dirimu berkarir di industri data. 


Sign Up untuk nikmati module GRATIS “Introduction to Data Science” dengan pengalaman belajar yang seru menyenangkan serta aplikatif pada industri nyata! Untuk kamu yang ingin mulai belajar Data Science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata terlambat untuk belajar. Yuk #MulaiBelajarData di DQLab.

Dengan belajar di DQLab, kamu bisa:

  • Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial

  • Dapatkan sesi konsultasi langsung dengan praktisi data lewat data mentoring

  • Bangun portofolio data langsung dari praktisi data Industri

  • Akses Forum DQLab untuk berdiskusi.


Simak informasi di bawah ini untuk mengakses gratis module ‘Introduction to Data Science’:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

Penulis : Tantut Wahyu

Editor : Annissa Widya


Share

Postingan Terkait

Mulai Bangun Karirmu Bersama DQLab!