Data Analyst : Tingkatkan Kecepatan Analisis Data Menggunakan 3 Cara Berikut
Seorang Data Analyst saat mengimpor data set baru, hal pertama yang harus dilakukan adalah memahami data. Memahami data yang dimaksud termasuk langkah-langkah seperti menentukan rentang variabel tertentu, mengidentifikasi setiap jenis data variabel, serta menghitung jumlah atau persentase Missing Value untuk setiap variabel.
Melakukan Analisis Data dalam suatu proyek Data Science terkadang dapat memakan waktu. Terlebih ketika proses yang memakan waktu tersebut adalah langkah-langkah iteratif yang dilakukan berulang kali. Ketimbang menghabiskan waktu untuk menuliskan setiap baris kode untuk melakukan pekerjaan yang berulang, kita dapat melakukan beberapa tips di bawah ini untuk meningkatkan efisiensi dalam melakukan analisis data. Lalu, apa saja 3 cara tersebut? Perhatikan penjelasan berikut ya!
1. Menggunakan Pandas Profiling
Pandas profiling merupakan salah satu cara yang sangat efisien untuk melakukan analisis data. Hanya menggunakan satu baris kode berupa : df.profile_report(), kita dapat membuat laporan HTML EDA dari data kita. Kode yang ditampilkan di atas akan membuat keluaran inline dari hasil; namun, kita juga dapat memilih untuk menyimpan laporan EDA sebagai file HTML agar dapat dibagikan dengan lebih mudah.
Bagian pertama dari laporan HTML EDA akan berisi bagian ikhtisar yang memberi Anda informasi dasar (jumlah pengamatan, jumlah variabel, dll.). Ini juga akan menampilkan daftar peringatan yang memberi tahu kita dimana harus memeriksa ulang data dan berpotensi memfokuskan upaya pembersihan data. Perhatikan contoh berikut:
Dengan menggunakan pandas profiling, kita dapat menghemat banyak waktu seorang Data Analyst dalam melakukan analisis data.
Baca juga : Belajar Data Analyst : Tips Sukses Interview Kerja Sebagai Data Analyst
2. Menggunakan Cufflinks dan Plotly
Sebagian besar dari kita yang merupakan Ilmuwan Data atau Analis Data yang dalam tanda kutip "berpengalaman", akan cukup akrab dengan integrasi antara matplotlib dan pandas. Fakta bahwa kita dapat membuat plot cepat dari pd.DataFrame atau pd.Series sederhana hanya dengan memanggil metode .plot () seperti ini:
Melakukan seperti contoh di atas memang baik-baik saja, tetapi bagaimana dengan plot interaktif, dapat digeser, dapat diperbesar, dapat diskalakan? Inilah saatnya menggunakan Cufflinks! Untuk menginstal Cufflinks, jalankan saja pip install cufflinks - tingkatkan versi di terminal favorit kamu dan kamu sudah siap untuk menggunakannya!. Perhatikan yang berikut ini:
Sangat disarankan bagi siapa pun yang bekerja dengan banyak visualisasi data untuk melihat dokumentasi Cufflinks dan Plotly untuk menemukan lebih banyak metode!
3. Menggunakan Shortcut (pintasan) pada Jupyter
Dengan mengakses dan mempelajari pintasan keyboard, kamu dapat menggunakan palet perintah: Ctrl + Shift + P. Tombol ini menampilkan daftar semua fungsi notebook. Seorang Data Analyst atau Data Scientist Senior biasanya akan menggunakan shortcuts untuk mempercepat pekerjaan mereka. Berikut ini adalah beberapa pintasan dari perintah paling dasar:
Esc : Ini akan membawa Anda ke mode perintah. Ini juga merupakan mode di mana Anda dapat menavigasi buku catatan Anda menggunakan tombol panah.
Saat dalam mode perintah:
A dan B : Menyisipkan sel baru [A] di atas atau [B] di bawah sel saat ini.
M : Mengubah sel saat ini menjadi [M] arkdown.
Y : Mengubah sel saat ini menjadi kode. (y tho?)
D,D : [D] efektif [D] menghapus sel saat ini.
Enter : Membawa Anda kembali ke mode edit untuk sel saat ini.
Saat dalam mode edit:
Shift + Tab : Menunjukkan Docstring (dokumentasi) untuk objek yang Anda ketikkan di sel saat ini - terus tekan pintasan untuk menelusuri mode dokumentasi.
Ctrl + Shift + -: Memisahkan sel saat ini dari tempat kursor Anda berada.
Esc + F: Temukan dan ganti kode Anda tidak termasuk output.
Esc + O: Mengalihkan keluaran sel.
Memilih Banyak Sel:
Shift + Down dan Shift + Up: Memilih penjualan berikutnya ke arah bawah atau atas. Saya pikir Anda bisa menggunakan kekuatan deduksi untuk mencari tahu yang mana.
Shift + M: Menggabungkan sel yang dipilih.
Sebagai catatan tambahan, ingat bahwa setelah sel dipilih, Anda dapat menghapus / menyalin / memotong / menempel / menjalankannya sebagai batch.
Baca Juga : Kenali Bagaimana Role Data Analyst dan Prospek Jenjang Karirnya
4. Yuk Pelajari Lebih Lanjut Bersama DQLab!
Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industri data yang sebenarnya! Sign up sekarang untuk #MulaiBelajarData di DQLab!
Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":
Buat Akun Gratis dengan Signup di DQLab.id/signup
Akses module Introduction to Data Science
Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab
Subscribe DQLab.id untuk Akses Semua Module Premium!
Penulis : Jihar Gifari
Editor : Annissa Widya