Pandas Python dalam Kegunaan Sehari Hari, Pemula Catat!
Ada banyak bahasa pemrograman yang tersedia di pasaran. Tetapi Python telah berkembang dengan hampir 72.000 Python Package Index (PyPi) dan terus berkembang secara konstan.
Dengan Python yang secara eksplisit dimaksudkan untuk memiliki pusat yang ringan dan sederhana, perpustakaan standar telah dikembangkan dengan alat untuk setiap jenis tugas pemrograman - filosofi "termasuk baterai" yang memungkinkan klien bahasa dengan cepat turun ke bagian yang tersesat dalam menangani masalah tanpa memfilter dan memilih di antara pustaka fungsi yang bersaing.
Selain itu, pustaka Pandas Python digunakan untuk analisis data yaitu, melakukan segalanya mulai dari mengimpor data dari spreadsheet Excel hingga kumpulan pemrosesan untuk analisis deret waktu.
Pandas pada dasarnya menempatkan setiap alat munging data normal tersedia. Ini menyiratkan pembersihan mendasar dan beberapa manipulasi lanjutan dapat dilakukan dengan kerangka data luar biasa Panda.
Pandas didasarkan pada NumPy, mungkin perpustakaan paling awal di balik kisah sukses ilmu data Python. Kapasitas NumPy ditemukan di Pandas untuk analisis numerik tingkat lanjut.
Sehingga sangat layak jika Python disebut sebagai salah satu bahasa yang paling banyak digunakan untuk Analisis Data dan Ilmu Data. Python mudah dipelajari, memiliki komunitas pelajar dan instruktur online yang hebat, dan memiliki beberapa perpustakaan pusat data yang sangat kuat. Pandas adalah salah satu perpustakaan terpenting dalam Python untuk Analisis Data, dan Ilmu Data.
Yuk kuasai dasar pandas dalam implementasi python!
1. head() dan tail()
head(n) digunakan untuk mengembalikan n baris pertama dari kumpulan data. Secara default, df.head() akan mengembalikan 5 baris pertama DataFrame. Jika Sahabat DQ ingin lebih banyak/lebih sedikit jumlah baris, Sahabat DQ dapat menentukan n sebagai bilangan bulat.
Sementara tail() mirip dengan head(), dan mengembalikan n baris terbawah dari kumpulan data. head() dan tail() membantu Sahabat DQ melihat sekilas dataset Sahabat DQ, dan memeriksa apakah data telah dibaca ke dalam DataFrame dengan benar.
Source : Towards Data Science
Baca juga: Tutorial Coding Python untuk Pemula Data
2. describe()
describe() digunakan untuk menghasilkan statistik deskriptif data dalam Pandas DataFrame atau Series. Ini merangkum tendensi sentral dan penyebaran dataset. describe() membantu mendapatkan gambaran umum singkat tentang kumpulan data. describe() mencantumkan ukuran statistik deskriptif yang berbeda untuk semua kolom numerik dalam kumpulan data Sahabat DQ.
Dengan menetapkan atribut include nilai 'all', kita bisa mendapatkan deskripsi untuk menyertakan semua kolom, termasuk yang berisi informasi kategoris.
3. loc[:]
loc[:] membantu mengakses sekelompok baris dan kolom dalam kumpulan data, sepotong kumpulan data, sesuai kebutuhan Sahabat DQ. Misalnya, jika kita hanya menginginkan 2 baris terakhir dan 3 kolom pertama dari kumpulan data, kita dapat mengaksesnya dengan bantuan loc[:]. Sahabat DQ juga dapat mengakses baris dan kolom berdasarkan label, bukan nomor baris dan kolom.
Kode di atas akan mengembalikan kolom “Nama”, “Usia”, dan “Negara Bagian” untuk 5 catatan pelanggan pertama. Ingatlah bahwa indeks dimulai dari 0 dengan Python, dan loc[:] itu inklusif pada kedua nilai yang disebutkan.
Jadi 0:4 berarti indeks 0 sampai 4, keduanya disertakan.loc[:] adalah salah satu fungsi paling kuat di Pandas, dan harus diketahui oleh semua Analis Data dan Ilmuwan Data. iloc[:] bekerja dengan cara yang sama, hanya saja iloc[:] tidak inklusif pada kedua nilai.
Jadi iloc[0:4] akan mengembalikan baris dengan indeks 0, 1, 2, dan 3, sedangkan loc[0:4] akan mengembalikan baris dengan indeks 0, 1, 2, 3, dan 4.
4. sort_value()
sort_values() digunakan untuk mengurutkan kolom dalam Pandas DataFrame (atau Seri Pandas) berdasarkan nilai dalam urutan menaik atau menurun. Dengan menentukan atribut inplace sebagai True, Sahabat DQ dapat membuat perubahan langsung di DataFrame asli.
Sahabat DQ dapat melihat bahwa urutan catatan telah berubah sekarang. Catatan sekarang terdaftar dalam urutan abjad Nama. sort_values() memiliki banyak atribut lain yang dapat ditentukan.Mirip dengan sort_values() adalah sort_index(). Ini digunakan untuk mengurutkan DataFrame berdasarkan indeks, bukan nilai kolom.
Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python
Belajar memulai karir sebagai praktisi data science dengan menggunakan Python, R dan SQL sederhana dengan sign up dan login melalui DQLab Academy! Yuk nikmati kemudahan belajar tanpa ribet melalui live code editor DQLab. Belajar sambil buat portfolio dengan modul DQLab!
Signup sekarang atau isi form dibawah ini ya Sahabat DQ!