DQLab Super Giveaway! Belajar Data Science 6 Bulan hanya Rp.99.000! DAFTAR

Pakai Kode: KUPON99K. Berakhir 0 Days 22 Jam : 44 Menit : 57 Detik

Exploratory Data Analysis : Pahami Lebih Dalam untuk Siap Hadapi Industri Data

Belajar Data Science di Rumah 02-September-2020
https://dqlab.id/files/dqlab/cache/1351e8bc84d298d866d25e9cedfbb1cc_x_Thumbnail800.jpg

Di antara cara yang paling baik dalam mempelajari Data Science adalah dengan terjun langsung ke dalam proyek-proyek dengan real-world data. Dengan mengerjakan proyek Data Science, kita akan lebih memahami setiap proses yang diperlukan untuk membuat suatu model Machine Learning, atau bahkan hanya untuk sekedar menganalisis data dan menghasilkan insights. Dalam setiap proyek Data Science dan Machine Learning, salah satu tahapan yang selalu dilalui adalah proses Exploratory Data Analysis atau yang biasa disingkat menjadi EDA. 

Apa itu Exploratory Data Analysis? Mengapa EDA penting untuk dilakukan? Apa yang akan terjadi apabila suatu proyek Data Science tidak melakukan EDA? Lalu, Bagaimana cara melakukan EDA tersebut? Pada artikel ini, DQLab akan berbagi pengetahuan kepada teman-teman semua dengan menjawab pertanyaan-pertanyaan di atas. Yuk simak penjelasannya!

1. Apa Itu Exploratory Data Analysis?

Secara definitif, Exploratory Data Analysis mengacu pada proses kritis dalam melakukan investigasi awal pada data untuk menemukan pola, untuk menemukan anomali, untuk menguji hipotesis dan untuk memeriksa asumsi dengan bantuan statistik ringkasan dan representasi grafis. Dengan melakukan EDA, kita dapat lebih memahami kondisi dataset yang kita miliki. Sehingga, kita dapat memulai pembentukan model Machine Learning dengan lebih baik kedepannya. 'Memahami kondisi dataset' dapat merujuk pada sejumlah hal termasuk namun tidak terbatas pada poin poin berikut : 

  • Mengekstrak variabel penting dan meninggalkan variabel yang tidak berguna

  • Mengidentifikasi pencilan(outliers), nilai yang hilang(missing values), atau kesalahan manusia (human error)

  • Memahami hubungan, atau kekurangan, antar variabel

  • Pada akhirnya, memaksimalkan wawasan yang kita miliki atas kondisi data dan meminimalkan potensi kesalahan di kemudian hari

    2. Mengapa EDA penting?

    Dengan melakukan EDA, kita dapat mengubah data set yang hampir bisa digunakan menjadi data set yang sepenuhnya bisa digunakan. Tentu saja,  EDA bukanlah tools yang dapat secara ajaib dapat membuat data set apapun menjadi bersih, itu tidak benar. Namun, banyak teknik EDA dapat memperbaiki beberapa masalah umum yang muncul di setiap kumpulan data sebagaimana yang disebutkan di poin sebelumnya. 

    EDA menjadi penting karena tanpa melakukan Exploratory Data Analysis, kita bisa saja kehilangan banyak informasi penting yang terdapat di dalam dataset kita. Selain itu, meski memakan waktu yang relatif cukup lama, sesungguhnya EDA akan menghemat waktu pengerjaan proyek Data Science kita. Karena, apabila kita melakukan data modelling tanpa menerapkan EDA, besar kemungkinan model yang akan kita lakukan memiliki performa yang kurang baik. Karena kita membuat model tanpa benar-benar memahami kondisi data yang kita miliki. Lalu, besar kemungkinan kita akan banyak menghabiskan waktu untuk mencari kesalahan apa yang harus diperbaiki, dan mengulang proses data modelling kembali. Tentu proses ini sangat memakan waktu. Dengan melakukan EDA, kita tidak perlu melakukan pengulangan seperti ini, atau setidaknya mengurangi kemungkinan nya.

    3. Bagaimana Cara Melakukan Exploratory Data Analysis?

    Pada artikel ini, tidak akan diberikan panduan yang rinci mengenai tahapan dalam melakukan EDA. Artikel ini diharapkan dapat menjadi pengantar bagi kamu yang hendak memulai atau membuat Exploratory Data Analysis dalam proyek data mu. Sehingga, dalam artikel ini, khususnya pada poin ini, akan dijelaskan apa saja poin yang biasanya dilakukan dalam proses Exploratory Data Analysis. 

    Dalam melakukan EDA, kamu dapat memulainya dengan menjawab beberapa pertanyaan inti berikut :

    • Pertanyaan apa yang kamu ingin untuk temukan jawabannya di dalam dataset ini?

    • Bagaimana kondisi dan jenis data yang kamu miliki? Bagaimana kamu mengatasi perbedaan jenis dan tipe data di dalamnya?

    • Apa yang hilang dari data mu? Bagaimana kamu akan mengatasi nya? Adakah variabel lain yang dapat dijadikan tolak ukur?

    • Di variabel mana sajakah outlier ditemukan? Bagaimana cara terbaik dalam mengatasinya? 

    • Bagaimana kamu akan menambah, mengurangi, atau memanipulasi variabel yang sudah kamu miliki? Mengapa demikian? 

    • Model Machine Learning apa yang berpotensi untuk dibentuk menggunakan data mu? Bagaimana persiapan yang harus kamu lakukan terhadap datamu?

    Apabila kamu sudah menjawab semua pertanyaan di atas, maka kamu sudah dapat dikatakan telah melakukan proses Exploratory Data Analysis. Pada tahap ini, seharusnya kamu sudah memahami dengan mendalam kondisi data yang kamu miliki dan siap untuk membuat Machine Learning model. Dalam menjawab semua pertanyaan di atas, usahakan untuk menggunakan berbagai visualisasi dan disertai dengan penjelasan angkanya. Mengapa Demikian? Karena terkadang visualisasi saja tanpa disertai dengan penjelasan angka dapat menimbulkan bias. Untuk menguranginya, kamu dapat menambahkan visualisasi dengan berbagai jenis plot, dan melengkapinya dengan angka.

    4. Yuk Mulai Pelajari Lebih Dalam Bersama DQLab!

    Yuk mulai lakukan Exploratory Data Analysis pada data yang kamu miliki! Sign Up untuk nikmati module GRATIS “Introduction to Data Science” dengan pengalaman belajar yang seru menyenangkan serta aplikatif pada industri nyata! Untuk kamu yang ingin mulai belajar Data Science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata terlambat untuk belajar. Yuk #MulaiBelajarData di DQLab.

    Dengan belajar di DQLab, kamu bisa:

    • Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial

    • Dapatkan sesi konsultasi langsung dengan praktisi data lewat data mentoring

    • Bangun portofolio data langsung dari praktisi data Industri

    • Akses Forum DQLab untuk berdiskusi.

    Simak informasi di bawah ini untuk mengakses gratis module ‘Introduction to Data Science’:

    1. Buat Akun Gratis dengan Signup di DQLab.id/signup

    2. Akses module Introduction to Data Science

    3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

    Penulis : Jihar Gifari

    Editor : Annissa Widya Davita


    Share

    Postingan Terkait

    Mulai Bangun Karirmu Bersama DQLab!