PROMO SPESIAL 12.12
Belajar Data Science Bersertifikat, 6 Bulan hanya 120K!
0 Hari 3 Jam 12 Menit 1 Detik

Belajar Bahasa R untuk Pemula Tidyverse Package untuk Eksplorasi dan Manipulasi Data

Belajar Data Science di Rumah 12-Agustus-2021
https://dqlab.id/files/dqlab/cache/0c7ecd166107c6c85e71a2fc2202fbd1_x_Thumbnail800.jpg

Bahasa R adalah turunan dari bahasa S yang dirancang untuk analisis statistika dan grafik. Bahasa R menjadi salah satu bahasa pemrograman yang populer digunakan praktisi data seperti data scientist untuk mengolah dan menganalisis data. Pemrograman R banyak dipelajari oleh pemula maupun yang memiliki latar belakang IT yang ingin berprofesi sebagai data scientist. Untuk menerapkannya kita perlu menginstal RStudio dan dapat digunakan di berbagai platform seperti Windows dan MacOS. Selain itu bahasa R bersifat open source sehingga siapapun bisa menggunakannya. 


Dalam pengolahan data, eksplorasi data merupakan hal yang penting untuk dilakukan. Tujuan dari eksplorasi data yaitu untuk memahami data sebelum dilakukan praproses data. Manipulasi data juga merupakan langkah penting dalam mengolah data. Manipulasi data bertujuan untuk mengorganisir data dan membuat data lebih rapi sehingga memudahkan proses analisis selanjutnya. Bahasa R menyediakan banyak package yang memudahkan eksplorasi dan manipulasi data, salah satunya yaitu Tidyverse. Apa itu Tidyverse? Yuk, simak pembahasannya dibawah ini!


1. Mengenal Tidyverse Package

Tidyverse adalah salah satu package di R yang berfungsi untuk pengolahan data import dan export data, membuat visualisasi data, dan pemodelan data. Data scientist wajib menguasai penggunaan package ini karena akan sangat membantu dalam mengolah data. Data scientist pasti akan berhadapan dengan berbagai jenis data dan perlu fungsi yang powerful untuk membantu pekerjaannya. Kita perlu menginstal Tidyverse sebelum menggunakannya, caranya dengan menuliskan sintaks berikut:


install.packages(tidyverse)


Jika sudah berhasil di install, panggil Tidyverse untuk menggunakannya caranya sebagai berikut:


library(tidyverse)


Di dalam Tidyverse terdapat beberapa package yang sering digunakan untuk manipulasi data hingga membuat grafik. 


Baca juga : Kursus Belajar Data dengan Bahasa R Untuk Pemula


2. Manipulasi Data dengan dplyr

Dalam melakukan manipulasi data di R kita dapat menggunakan package dplyr. Package ini dibuat oleh Handley Wickham dan Roman Francois yang berisi kumpulan fungsi yang memudahkan manipulasi data yaitu antara lain:

  • sample() untuk mengambil sampel secara acak dari tabel

  • select() untuk mengambil data atau variabel yang dibutuhkan

  • arrange() untuk mengurutkan data

  • filter() untuk menyaring data

  • groupby() untuk mengelompokkan data 

Beberapa alasan mengapa dplyr digunakan ketika melakukan manipulasi data yaitu pemrosesannya cepat sehingga meminimalisir waktu, kode yang simpel sehingga mudah dimengerti, dan penggunaan fungsi yang sistematis sehingga kode lebih rapi. Cara menginstall package dplyr yaitu sebagai berikut:


install.package(dplyr)


Sedangkan untuk memanggil dplyr yaitu dengan sintaks:


library(dplyr)


3. ggplot2 untuk Visualisasi Data

ggplot2 adalah package yang berfungsi membuat grafik yang merepresentasikan data dengan menerapkan warna, simbol, dan lainnya. Package ini memiliki banyak fungsi dan plot yang bisa kita pilih untuk memvisualisasikan data. Beberapa kelebihan yang dimiliki ggplot2 yaitu antara lain fleksibel dalam penggunaannya, fungsi yang lengkap untuk visualisasi, dan penggunaan metodenya tidak ribet. Cara install dan penggunaan package ggplot2 sama dengan package yang sudah dibahas di poin sebelumnya yaitu:  


install.package(ggplot2)  #install package

library(ggplot2)  #memanggil ggplot2


Contoh visualisasi data dengan ggplot2 bisa dilihat dibawah ini:


Sumber: rpubs.com


4. Package readr dan tidyr

Package lainnya yang termasuk dalam tidyverse adalah readr dan tidyr. Data adalah komponen penting dalam melakukan analisis. Package readr memiliki fungsi-fungsi untuk membaca file dalam berbagai format yaitu csv, excel, text file, dan lainnya. Sintaks penggunaan readr dan keterangannya yaitu sebagai berikut:

data1_csv = read.csv(data1)

  • data1_csv adalah pendefinisian nama data yang akan dianalisis

  • read.csv untuk membaca data dalam format csv

  • data1 adalah sumber data

Package tidyr digunakan untuk merapikan data seperti handling missing value yang berfungsi menangani data yang hilang atau tidak lengkap. Bisa menggunakan fungsi drop_na() untuk menghapus data atau replace_na() untuk mengganti data. Fungsi gather() dan spread() pada tidyr sering digunakan untuk merapikan data. 


Baca juga : Belajar Data Science: Bahasa Pemrograman R Cocok untuk Pemula


5. Belajar Penggunaan Berbagai Package Bahasa R di DQLab, Yuk!

Bagi pemula yang tidak memiliki background IT tentu akan kesulitan belajar pemrograman R. Namun jangan berkecil hati, dengan banyak berlatih perlahan tapi pasti kamu akan menguasai bahasa R. Salah satu caranya yaitu dengan mengikuti kursus data science yang menyediakan modul pembelajaran R. DQLab adalah platform belajar yang berfokus pada data science dengan modul-modul menarik yang membahas pemrograman untuk data science seperti R. Data dan kasus yang digunakan mirip dengan kasus nyata di dunia data. Yuk, mulai belajar dan bangun portofolio datamu di DQLab.id!



Penulis: Dita Kurniasari

Editor: Annissa Widya


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login