Beraksi sebagai Data Analyst dengan Pandas Python
Pandas atau Python for Data Analysis adalah paket Python yang menyediakan struktur data yang cepat, fleksibel, dan ekspresif yang dirancang untuk membuat pekerjaan praktisi data menjadi mudah dan intuitif.
Selain itu, Pandas memiliki tujuan yang lebih luas untuk menjadi alat analisis/manipulasi data open source yang paling kuat dan fleksibel yang tersedia dalam bahasa apa pun.
Sebagai calon praktisi data Sahabat DQ akan mengumpulkan dan meneliti data menggunakan alat khusus untuk menghasilkan informasi yang membantu orang lain membuat keputusan. Team data akan menjawab pertanyaan tentang data dan mencari tren, pola, dan anomali di dalamnya.
Selain itu, Praktisi data akan menggunakan keahlian teknis untuk memastikan kualitas dan akurasi data tersebut, kemudian memproses, merancang, dan menyajikannya dengan cara membantu orang, bisnis, dan organisasi membuat keputusan yang lebih baik.
Praktisi Data modern memiliki beberapa keterampilan yang dapat digunakan untuk mendukung kinerjanya, beberapa keterampilan teknis seperti pengetahuan tentang bahasa database seperti SQL, R, atau Python, spreadsheet seperti Microsoft Excel atau Google Sheets dan perangkat lunak visualisasi data seperti Tableau atau Qlik.
Keterampilan matematika dan statistik juga berharga untuk membantu mengumpulkan, mengukur, mengatur, dan menganalisis data.
Nah, berikut adalah keterampilan Panda Python yang bisa Sahabat DQ gunakan untuk melakukan analysis!
1. Merge Pandas
Merge atau penggabungan dilakukan pada kolom atau indeks. Prinsipnya sama dengan JOIN pada SQL yang juga mempertimbangkan LEFT, INNER, RIGHT, atau CROSS. Jika menggabungkan kolom pada kolom, index DataFrame akan diabaikan.
Sebaliknya jika menggabungkan indeks pada indeks atau indeks pada kolom maka indeks akan diteruskan. Saat melakukan penggabungan silang atau cross merge, maka tidak ada spesifikasi kolom untuk digabungkan.
Berikut adalah contoh sintaks MERGE dengan Prinsip LEFT
Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python
2. Describe ( )
Statistik deskriptif mencakup statistik yang merangkum tendensi sentral, dispersi, dan bentuk distribusi kumpulan data, tidak termasuk nilai NaN. Menganalisis seri numerik dan objek, serta kumpulan kolom DataFrame dari tipe data campuran. Output akan bervariasi tergantung pada apa yang disediakan.
Lihat catatan di bawah untuk lebih jelasnya.
3. groupby( )
Operasi group by melibatkan beberapa kombinasi pemisahan objek, menerapkan beberapa fungsi seperti agregasi, text hingga dan menggabungkan hasil. Groupby dapat digunakan untuk mengelompokkan sejumlah besar data dan menghitung operasi pada grup ini.
4. CASE WHEN
Ekspresi CASE mengevaluasi kondisinya secara berurutan dan berhenti dengan kondisi pertama yang kondisinya terpenuhi. Dalam beberapa situasi, ekspresi dievaluasi sebelum ekspresi CASE menerima hasil ekspresi sebagai inputnya. Kesalahan dalam mengevaluasi ekspresi ini mungkin terjadi.
Ekspresi gabungan yang muncul dalam argumen WHEN ke ekspresi CASE dievaluasi terlebih dahulu, lalu diberikan ke ekspresi CASE. Misalnya, kueri berikut menghasilkan kesalahan bagi dengan nol saat menghasilkan nilai agregat MAX. Ini terjadi sebelum mengevaluasi ekspresi CASE.
Baca juga: Array Python : Array VS List Serupa Namun Tak Sama, Yuk, Kenali Perbedaannya
Belajar memulai karir sebagai praktisi data science dengan menggunakan Python, R dan SQL sederhana dengan sign up dan login melalui DQLab Academy! Yuk nikmati kemudahan belajar tanpa ribet melalui live code editor DQLab. Belajar sambil buat portfolio dengan modul DQLab!
Signup sekarang atau isi form dibawah ini ya Sahabat DQ!