Project Simple ETL with Pandas, Yuk Akses Modulenya Sekarang!
Dalam melakoni perannya sebagai data engineer, mereka memiliki tanggung jawab utama dalam membangun infrastruktur big data yang belum terstruktur. Untuk bisa menyelesaikan tugasnya, data engineer perlu memiliki berbagai keahlian seperti matematika, bahasa pemrograman, database technology, database processing, dan algoritma.
Selain itu, salah satu skill utama lainnya yang perlu dimiliki seorang data engineer adalah memiliki pemahaman Extract, Tranfer, & Load atau biasa dikenal dengan ETL. ETL mengacu pada proses bagaimana data diambil (ektraksi) dari sumber, kemudian diubah menjadi format yang dapat dianalisis dan disimpan ke dalam data warehouse. Untuk melakukan proses ETL ini biasanya para data engineer memerlukan bahasa pemrograman untuk memudahkannya. Pyhton menjadi salah satu pilihan yang cukup banyak diminati untuk menyelesaikan proses ETL dengan menggunakan salah satu library di dalamnya, yakni Python Data Analysis (Pandas).
Kali ini DQLab akan membahas bagaimana cara simpel membuat project ETL menggunakan Pandas. Ini informasinya!
1. Apa itu Pandas?
Pandas atau juga biasa disebut panel data ini merupakan sebuah library pada Python yang bertujuan untuk menganalisis struktur data, memanipulasi, juga melakukan pembersihan data. Sifatnya yang open source dapat memudahkan kamu dalam mengolah data dengan bentuk tabular yang tersimpan ke dalam baris dan kolom.
Pandas biasanya juga digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan semacamnya. Secara garis besar dapat disimpulkan bahwa Pandas merupakan library analisis data yang diperlukan dalam proses pembersihan data mentah ke dalam sebuah bentuk yang bisa untuk diolah.
Baca juga : Belajar Python : 3 Fungsi Pandas Python yang Jarang Diketahui
2. DQThon : DQLab Hackhaton
Bagi kamu yang memiliki background pendidikan di bidang programming tentu tidak asing dengan istilah hackathon. Hackathon adalah kegiatan kompetisi pemrograman yang berlangsung untuk beberapa jam hingga beberapa hari. Istilah yang satu ini merupakan gabungan dari kata "hack" dan "marathon". Meski begitu, tidak ada aktivitas hacking di dalamnya. Dalam kompetisi ini, semua orang yang berpartisipasi dalam event ini berkolaborasi untuk menciptakan solusi terhadap suatu masalah, tergantung dengan tema yang telah ditentukan. Hasil ciptaan itulah yang akan dilombakan dan bersaing satu sama lain.
Kali ini DQLab berkesempatan untuk mengadakan suatu event hackhaton yang akan diikuti oleh 5000 peserta. Saat mendaftar, tiap peserta memasukkan beberapa informasi yang dibutuhkan seperti nama lengkap, tanggal lahir, alamat tinggal, dan nomor telepon. Dari 5000 data yang dimiliki, DQLab akan menyortir data tersebut dan membuat kolom informasi baru di luar dari kolom yang sudah ada.
3. Project Simple ETL with Pandas
Sudah siap belajar Pandas bersama DQLab? Berikut kompetensi yang nantinya akan ada 3 proses yang kamu lalui. Jika kamu berminat mengikuti DQThon, kamu akan mempelajari materi sebagai berikut :
Melakukan Extract Data dari Data Warehouse
Melakukan Transform Data dengan Pandas
Melakukan Load Data ke Data Warehouse
Baca juga : Business Intelligence : Mengenal Proses Pengolahan Data Oleh Business Intelligence
4. Kuasai & Bangun Portfolio ETL dengan Mengerjakan Module Premium Baru DQLab!
Bagi kamu yang berminat untuk mengasah kemampuanmu dalam melakukan proses ETL kamu bisa kok persiapkan dirimu dengan memperbanyak bekal melalui module baru yang tersedia di DQLab. Bersama DQLab, kamu akan belajar memahami ETL secara mendalam. Bukan hanya itu, DQLab sebagai online course juga memungkinkan kamu untuk bisa belajar dimana pun dan kapan pun secara efisien.
Penulis : Sandi Sabar Rahman
Editor : Annissa Wiyda Davita