BEDUG MERIAH Diskon 95%
Belajar Data 6 BULAN Bersertifikat hanya Rp150K!

0 Hari 5 Jam 21 Menit 36 Detik

Wrangling Python Skill Wajib Untuk Seorang Data Scientist

Belajar Data Science di Rumah 01-Februari-2021
https://dqlab.id/files/dqlab/cache/894e1ab9b48ea35b47c97e74868ea550_x_Thumbnail800.png

Data Wrangling Python merupakan salah satu skill wajib yang harus dimiliki seorang Data Scientist. Selain data wrangling sebenarnya masih banyak skill lainnya yang harus dimiliki oleh seorang Data Scientist. Data wrangling sendiri merupakan suatu proses transformasi dan pemetaan data dari satu "raw" bentuk data ke format lain dengan maksud untuk membuat proses analisa menjadi lebih mudah. Data mentah ini berisikan berbagai tipe data. Untuk itu perlu dilakukan data wrangling dimana data mentah akan diseragamkan tujuannya adalah agar data tersebut lebih mudah dianalisis.

Pada Python terdapat salah satu library yang sering digunakan dalam melakukan proses data wrangling yaitu pandas. Pandas merupakan toolkit yang memiliki kemampuan dalam membaca berbagai macam tipe data dan sering digunakan sebagai analisis data awal hingga pengenalan struktur dataset dalam Python. Pada artikel ini kita akan membahas beberapa hal yang dilakukan oleh data wrangling, simak penjelasan berikut ini!


1. Membaca Data Menggunakan Pandas

Pandas merupakan salah satu alternatif library yang sering digunakan untuk proses data wrangling. Pandas merupakan toolkit yang powerfull sebagai analisis data diawal dan pengenalan struktur dataset dalam Python. Tahapan pertama untuk mengetahui isi data adalah dengan membacanya terlebih dahulu. Pandas memiliki kemampuan untuk membaca berbagai macam jenis file. Format data yang dapat dibaca oleh panda pun beragam seperti .csv, .tsv, .json, .txt, dan lainnya. Setelah file terbaca, pandas mampu merubah file ke dalam bentuk dataframe, hal ini dapat memudahkan untuk mengakses, mengagregasi, dan mengolah data tersebut. Di bawah ini adalah contoh kode untuk membaca dataset.

# import library pandas

import pandas as pd


# menentukan lokasi file, nama file, dan inisialisasi csv

dataset = pd.read_csv("shopping_data.csv")


# menampilkan 5 baris data pertama

print(dataset.head())


Baca juga : Python Array : Memahami Kegunaan Array Dalam Python

�

2. Menampilkan Informasi Dataset

Sebelum melakukan tahap analisis selanjutnya, kita harus mengetahui informasi terkait dengan data tersebut. Pada pandas kita dapat dengan mudah melihat informasi dataset yang kita miliki. Pertama kita dapat menggunakan method .shape untuk melihat ukuran dari dataset yang kita miliki seperti contoh berikut:

dataset.shape


lalu akan menghasilkan output:

(200, 5)


Yang artinya pada dataset tersebut memiliki data sebanyak 200 baris dengan 5 kolom.

Lalu cara yang kedua kita dapat mengetahui apakah dataset kita terdapat missing value atau tidak. Caranya dengan menggunakan fungsi .info() seperti berikut:

dataset.info()


Cara ketiga, kita dapat melakukan Measures of Central Tendency dengan dataset yang kita miliki, caranya adalah dengan menggunakan fungsi .describe seperti berikut:

dataset.describe()


3. Melakukan Akses Data

Pada proses analisis data, terkadang kita hanya membutuhkan beberapa kolom yang dianggap penting dan mempunyai peranan penting dalam proses analisis. Untuk itu kita hanya perlu melakukan akses ke beberapa data saja dan tidak perlu menampilkan semua datanya. Pada pandas, kita dapat melakukan akses ke dalam berbagai kebutuhan seperti mengakses baris atau kolom tertentu. Pandas memiliki attribute .columns untuk melihat nama-nama kolom yang terdapat pada dataset. Contoh penggunaannya adalah seperti berikut:

# Import library pandas

import pandas as pd

# menentukan lokasi file, nama file, dan inisialisasi csv

csv_data = pd.read_csv("shopping_data.csv")

# mencetak nama kolom

print(csv_data.columns)


Selanjutnya misalkan kita hanya ingin menampilkan kolom "Age" untuk melihat umur dari masing-masing customer. Untuk itu kita bisa memasukkan perintah seperti berikut:

print(dataset['Age'])


Baca juga : 3 Metode Numpy Array Python Sebagai Dasar Proses Manipulasi Data

4. Yuk, BELAJAR DATA SCIENCE GRATIS DI DQLAB SELAMA 1 BULAN!

Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Buka academy.dqlab.id dan pilih menu redeem voucher

  3. Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.

  4. Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.


    Penulis : Salsabila Miftah Rezkia

    Editor : Annissa Widya Davita


    Mulai Karier
    sebagai Praktisi
    Data Bersama
    DQLab

    Daftar sekarang dan ambil langkah
    pertamamu untuk mengenal
    Data Science.

    Buat Akun


    Atau

    Sudah punya akun? Login