Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Pengolahan Data Statistik : Ternyata 2 Hal ini Bisa Bantu Kamu Dalam Enrichment Datamu

Belajar Data Science di Rumah 03-Oktober-2020
https://dqlab.id/files/dqlab/cache/b2113d2e719193e4095222314e0d9c4f_x_Thumbnail800.jpg

Data merupakan komponen penting yang bisa menghasilkan informasi jika diolah dengan teknik pengolahan yang tepat. Pada era digital transformation seperti ini, pengolahan data dengan tahapan yang rinci dan terarah akan sangat menguntungkan karena akan menghasilkan informasi yang sangat bermanfaat bagi penggunanya. Namun, kamu tidak selalu mendapatkan data yang mulus, bisa saja dan banyak sekali kasus bahwa kamu akan mendapatkan data yang kotor atau belum terstandarisasi dengan baik. Sehingga kamu harus memperbaiki dengan sangat hati hati. Karena jika kamu tidak berhati hati kamu akan merusak komposisi data tersebut. Salah satu cara untuk memperbaiki data adalah dengan melakukan enrichment terhadap data yang kotor.

Data enrichment adalah proses pengisian data yang hilang atau menambah data baik dari sumber internal maupun eksternal dengan cara mengkorelasikan berdasarkan beberapa kolom tertentu sehingga analisa data lebih tajam. Sebagai contoh, data Nilai Belanja Setahun yang kosong dapat diisi dengan nilai rata-rata (mean) dari keseluruhan data. Contoh lain, data kode pos yang kosong dapat diisi jika kita memiliki master kode pos. Atau dengan cara mencari dari alamat lain yang mirip dan terisi kode posnya.

Yuk bersama DQLab pahami lebih lanjut terkait data enrichment !

1. Yuk, Enrichment Missing Value dengan Mean

rataan <- mean(nama.tabel$nama.kolom,na.rm=TRUE)
nama.tabel$nama.kolom[is.na(nama.tabel$nama.kolom)]<-rataan

Fungsi diatas, merupakan cara yang dapat kamu lakukan untuk menemukan nilai rata rata hingga mengisi missing value pada kolom tersebut. Fungsi pada baris pertama dapat diartikan sebagai proses pencarian nilai rata rata yang dimiliki oleh suatu kolom pada suatu tabel di dalam dataset yang kamu miliki. Sementara pada baris kedua adalah fungsi untuk melakukan pengisian nilai terhadap kolom yang memiliki nilai null dengan menggunakan nilai rata rata yang sudah dihitung sebelumnya. Sehingga, nilai null atau nilai yang kosong pada kolom terdefinisi akan terisi dengan mean terhitung.


Baca Juga : Mulai Belajar Data Science GRATIS bersama DQLab selama 1 Bulan Sekarang!


2. Enrichment Juga Bisa Menggunakan Median Lho

ntengah <- mean(nama.tabel$nama.kolom,na.rm=TRUE)
nama.tabel$nama.kolom[is.na(nama.tabel$nama.kolom)]<-ntengah


Ternyata nilai tengah atau akrab kita kenal sebagai median dalam ilmu statistik dapat mengisi kekosongan value pada dataset. Yuk perhatikan fungsi diatas! Sama halnya dengan mean, fungsi yang ada merupakan cara yang dapat kamu lakukan untuk menemukan nilai tengah hingga mengisi missing value pada kolom tersebut. Fungsi pada baris pertama dapat diartikan sebagai proses pencarian nilai tengah atau median yang dimiliki oleh suatu kolom pada suatu tabel di dalam dataset yang kamu miliki. Sementara pada baris kedua adalah fungsi untuk melakukan pengisian nilai terhadap kolom yang memiliki nilai null dengan menggunakan nilai tengah yang sudah dihitung sebelumnya. Sehingga, nilai null atau nilai yang kosong pada kolom terdefinisi akan terisi dengan median terhitung.


3. Yuk, Rapikan Datamu dengan Konsolidasi Data Akhir

Data enrichment adalah proses pengisian data yang hilang atau menambah data baik dari sumber internal maupun eksternal dengan cara mengkorelasikan berdasarkan beberapa kolom tertentu sehingga analisa data lebih tajam. Kamu juga dapat menerapkan teknik grouping duplikat juga memungkinkan kita melakukan enrichment.

Pada pembelajaran data science di DQLab kamu akan dapat melakukan proses muali dari awal mengcrawl data hingga memunculkan insight seperti pengisian kolom yang kosong diisi dengan perhitungan nilai rata-rata menggunakan function mean dan atau nilai tengah menggunakan function median, atau bahkan mengisi data yang kosong dengan melakukan grouping duplikat dari kolom alamat.

Pada bagian terakhir cleansing data kita juga mengkonsolidasikan seluruh data mulai dari hasil standarisasi, grouping duplikat dan pengisian missing value. Dengan demikian, hasil konsolidasi terlihat jauh lebih rapi dengan lebih banyak informasi seperti informasi yang telah diisi dan terstandarisasi.


Baca Juga : Mulai Belajar Data Science GRATIS bersama DQLab selama 1 Bulan Sekarang!


4. Yuk, Bersama DQLab Belajar Teknik Pengolahan Data Dari Hulu Hingga Hilir, Gratis!!

Terapkan ilmunya sekarang dengan bergabung bersama platform belajar online DQLab! Selain bisa meningkatkan ilmu data yang dimiliki, kamu juga bisa membangun portofolio datamu di DQLab guna mempersiapkan dirimu berkarir di industri data.

Sign Up untuk nikmati module GRATIS "Introduction to Data Science" dengan pengalaman belajar yang seru menyenangkan serta aplikatif pada industri nyata! Untuk kamu yang ingin mulai belajar Data Science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata terlambat untuk belajar. Yuk #MulaiBelajarData di DQLab.

Dengan belajar di DQLab, kamu bisa:

  • Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial

  • Dapatkan sesi konsultasi langsung dengan praktisi data lewat data mentoring

  • Bangun portofolio data langsung dari praktisi data Industri

  • Akses Forum DQLab untuk berdiskusi.


Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

Penulis : Tantut Wahyu

Editor : Annissa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login