PROMO PUNCAK LEBARAN DISKON 99%
Belajar Data Science 6 Bulan BERSERTIFIKAT hanya Rp 99K!

1 Hari 4 Jam 14 Menit 19 Detik

Exploratory Data Analysis : Pahami Lebih Dalam untuk Siap Hadapi Industri Data

Belajar Data Science di Rumah 02-September-2020
https://dqlab.id/files/dqlab/cache/e037c90a428a9a3f512b02bdfa4f088b_x_Thumbnail800.jpg

Data science saat ini menjadi salah satu poin penting dalam proses analisis data. Belajar data science pun dapat dilakukan secara otodidak baik secara online maupun offline. Salah satu cara terbaik dalam mempelajari data science adalah dengan terjun langsung ke dalam proyek-proyek dengan real-world data. Dengan mengerjakan proyek data science, kita akan lebih memahami setiap proses yang diperlukan untuk membuat suatu model Machine Learning, atau bahkan hanya untuk sekedar menganalisis data dan menghasilkan insights. Dalam setiap proyek Data Science dan Machine Learning, salah satu tahapan yang selalu dilalui adalah proses Exploratory Data Analysis atau yang biasa disingkat menjadi EDA. 


Exploratory data analysis adalah bagian penting dari proses data science, yaitu berupa proses menganalisis sekumpulan data untuk meringkas karakteristik utamanya agar pengguna lebih memahami dataset yang akan digunakan. Jika menggunakan bahasa pemrograman python, exploratory data analysis ini dapat digunakan menggunakan beberapa library yang tersedia, salah satunya adalah library pandas.


1. Pengertian Exploratory Data Analysis

Exploratory Data Analysis adalah suatu proses uji investigasi awal yang bertujuan untuk mengidentifikasi pola, menemukan anomali, menguji hipotesis dan memeriksa asumsi. Dengan melakukan EDA, pengguna akan sangat terbantu dalam mendeteksi kesalahan dari awal, dapat mengidentifikasi outlier, mengetahui hubungan antar data serta dapat menggali faktor-faktor penting dari data. Proses EDA ini sangat bermanfaat dalam proses analisis statistik.

Dengan demikian tidak heran jika para praktisi data profesional sudah sangat sering menggunakan EDA agar hasil analisis menjadi lebih valid dan relevan dengan tujuan bisnis. Secara umum terdapat beberapa teknik exploratory data analysis yaitu dengan menggunakan statistik deskriptif, univariat analysis, dan multivariat analysis. 


Data analisis


Baca juga : Data Science Adalah: Yuk Kenali Lebih Jauh Tentang Data Science!


2. Pentingnya Exploratory Data Analysis

Ketika seseorang melakukan proses analisis data, salah satu proses yang sebaiknya tidak terlewatkan adalah exploratory data analysis (EDA). EDA merupakan salah satu proses penting dalam analisis data dikarenakan dengan melakukan EDA pengguna akan dapat lebih menghemat waktu dalam proses analisis data, dapat mengetahui beberapa kesalahan dalam data seperti adanya missing value, outliers, duplikasi, encodings, data noisy, data tidak lengkap, dll.


Salah satu hal yang dikhawatirkan jika tidak melalui proses EDA adalah terjadinya error yang berulang-ulang dalam proses analisis, atau hasil analisis menjadi kurang valid dan kurang relevan dengan tujuan bisnis dikarenakan data yang digunakan masih benar-benar belum siap. Selain itu dengan melakukan EDA, pengguna akan terbantu dalam melihat data sebelum membuat asumsi apapun sehingga dapat mengidentifikasi kesalahan-kesalahan dalam data.

Data analisis


3. Teknik Exploratory Data Analysis

Pada proses pengolahan data, dalam melakukan exploratory data analysis dapat menggunakan beberapa teknik yang tersedia, yaitu:

  1. Statistik deskriptif, yaitu mendeskripsikan atau merangkum data sehingga menghasilkan informasi secara umum tanpa bertujuan untuk menarik kesimpulan. Statistik deskriptif dapat menampilkan beberapa informasi penting seperti nilai rata-rata, median, modus, standar deviasi, variansi dan kecekungan. Statistik deskriptif ini dapat ditampilkan dalam berbagai bentuk seperti tabel, diagram, grafik, dll. 

  2. Univariate analysis, yaitu menganalisis kolom secara terpisah dan melihat distribusi datanya. Univariate analysis secara umum terbagi dua, yaitu numerik dan kategorik. Analisis ini digunakan juga dengan tujuan untuk mengambil kesimpulan dengan menggunakan beberapa analisis inferensial yang mungkin digunakan.

  3. Multivariate analysis, yaitu menggabungkan beberapa kolom dengan tujuan menemukan hubungan antara satu kolom dengan kolom lainnya. Analisis multivariat ini melibatkan variabel dalam jumlah lebih atau sama dengan tiga variabel.

Data analisis


4. Contoh EDA menggunakan Cara Statistik Deskriptif

Pada bahasa python, kita dapat menggunakan statistik deskriptif untuk melihat ringkasan dari data secara keseluruhan, salah satunya adalah dari data frame dengan menggunakan fungsi describe(), yaitu sebagai berikut

Data analisis

fungsi ini dapat memberikan informasi mengenai nilai rata-rata, standar deviasi dan interquartile range. Adapun contoh penerapannya adalah pada data frame nilai_skor_df berikut ini

Data analisis

dengan menggunakan kode berikut print(nilai_skor_df.describe()), sehingga menghasilkan

Data analisis

Baca juga : 3 Contoh Penerapan Data Science yang Sangat Berguna di Dunia Perindustrian


5. Kenali dan Pelajari Dasar Data Science di DQLab!

Data science saat ini dipandang menjadi ilmu pokok terutama dalam dunia teknologi. Beberapa perusahaan besar pun sudah banyak yang menerapkan ilmu ini. Salah satu proses dalam analisis data science adalah Explkratory Data Analysis atau biasa disebut dengan EDA. Pengenalan EDA secara mendasar dapat kita kenali dan pelajari di DQLab.


Belajar data science di DQLab memiliki beberapa keunggulan. Mulai dari tersedianya modul yang begitu banyak, belajar secara live code, tersedia ebook sebagai referensi belajar, dan adanya grup atau komunitas untuk dapat berdiskusi. Cara bergabungnya sangat mudah. Langsung saja sign up di DQLab.id/signup dan nikmati belajar data science DQLab


Penulis : Latifah Uswatun Khasanah

Editor : Annissa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login