DICARI! Yang Mau Belajar Data Science Disc. 96%
Belajar Data 6 BULAN Bersertifikat hanya Rp120K!

0 Hari 0 Jam 7 Menit 12 Detik

Apa Sih Enrichment Data Dalam Profesi Data Scientist ?

Belajar Data Science di Rumah 20-Januari-2021
https://dqlab.id/files/dqlab/cache/2ec835e30db359b130bcb92594e96401_x_Thumbnail800.jpg

Saat ini, pengolahan data statistik merupakan komponen penting yang bisa menghasilkan informasi terhadap data yang dimiliki. Pada era digital transformation seperti ini, pengolahan data statistik dengan tahapan yang rinci dan terarah akan sangat menguntungkan karena akan menghasilkan informasi yang sangat bermanfaat bagi penggunanya. Namun, kamu tidak selalu mendapatkan data yang mulus, bisa saja dan banyak sekali kasus bahwa kamu akan mendapatkan data yang kotor atau belum terstandarisasi dengan baik. Sehingga kamu harus memperbaiki dengan sangat hati hati. Karena jika kamu tidak berhati hati kamu akan merusak komposisi data tersebut. Salah satu cara untuk memperbaiki data adalah dengan melakukan enrichment terhadap data yang kotor. 


Data enrichment adalah proses pengisian data yang hilang atau menambah data baik dari sumber internal maupun eksternal dengan cara mengkorelasikan berdasarkan beberapa kolom tertentu sehingga analisa data lebih tajam. Sebagai contoh, data Nilai Belanja Setahun yang kosong dapat diisi dengan nilai rata-rata (mean) dari keseluruhan data. Contoh lain, data kode pos yang kosong dapat diisi jika kita memiliki master kode pos. Atau dengan cara mencari dari alamat lain yang mirip dan terisi kode posnya. 

Yuk bersama DQLab pahami lebih lanjut terkait pengolahan data statistik untuk data enrichment !

1. Yuk, Enrichment Missing Value dengan Mean

 

rataan <- mean(nama.tabel$nama.kolom,na.rm=TRUE)

nama.tabel$nama.kolom[is.na(nama.tabel$nama.kolom)]<-rataan

 

Fungsi diatas, merupakan cara yang dapat kamu lakukan untuk menemukan nilai rata rata hingga mengisi missing value pada kolom tersebut. Fungsi pada baris pertama dapat diartikan sebagai proses pencarian nilai rata rata yang dimiliki oleh suatu kolom pada suatu tabel di dalam dataset yang kamu miliki. Sementara pada baris kedua adalah fungsi untuk melakukan pengisian nilai terhadap kolom yang memiliki nilai null dengan menggunakan nilai rata rata yang sudah dihitung sebelumnya. Sehingga, nilai null atau nilai yang kosong pada kolom terdefinisi akan terisi dengan mean terhitung. 

 

Baca juga : Mengenal Profesi Data Scientist

 

2. Enrichment Juga Bisa Menggunakan Median Lho

ntengah <- mean(nama.tabel$nama.kolom,na.rm=TRUE)

nama.tabel$nama.kolom[is.na(nama.tabel$nama.kolom)]<-ntengah

 

Ternyata nilai tengah atau akrab kita kenal sebagai median dalam ilmu statistik dapat mengisi kekosongan value pada dataset. Yuk perhatikan fungsi diatas! Sama halnya dengan mean, fungsi yang ada merupakan cara yang dapat kamu lakukan untuk menemukan nilai tengah hingga mengisi missing value pada kolom tersebut. Fungsi pada baris pertama dapat diartikan sebagai proses pencarian nilai tengah atau median yang dimiliki oleh suatu kolom pada suatu tabel di dalam dataset yang kamu miliki. Sementara pada baris kedua adalah fungsi untuk melakukan pengisian nilai terhadap kolom yang memiliki nilai null dengan menggunakan nilai tengah yang sudah dihitung sebelumnya. Sehingga, nilai null atau nilai yang kosong pada kolom terdefinisi akan terisi dengan median terhitung. 

 

3. Yuk, Rapikan Datamu dengan Konsolidasi Data Akhir

Data enrichment adalah proses pengisian data yang hilang atau menambah data baik dari sumber internal maupun eksternal dengan cara mengkorelasikan berdasarkan beberapa kolom tertentu sehingga analisa data lebih tajam. Kamu juga dapat menerapkan teknik grouping duplikat juga memungkinkan kita melakukan enrichment. 

 

Pada pembelajaran data science di DQLab kamu akan dapat melakukan proses muali dari awal mengcrawl data hingga memunculkan insight seperti pengisian kolom yang kosong diisi dengan perhitungan nilai rata-rata menggunakan function mean dan atau nilai tengah menggunakan function median, atau bahkan mengisi data yang kosong dengan melakukan grouping duplikat dari kolom alamat. 

 

Pada bagian terakhir cleansing data kita juga mengkonsolidasikan seluruh data mulai dari hasil standarisasi, grouping duplikat dan pengisian missing value. Dengan demikian, hasil konsolidasi terlihat jauh lebih rapi dengan lebih banyak informasi seperti informasi yang telah diisi dan terstandarisasi.


Baca juga : Yuk Kenal Role Data Scientist, Profesi Menarik Dengan Gaji Besar

4. Yuk Mulai Belajar Data Science Sekarang!

Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industi data yang sebenarnya! Sign up sekarang untuk #MulaiBelajarData di DQLab!



Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login