Belajar Bahasa R untuk Pemula Tidyverse Package untuk Eksplorasi dan Manipulasi Data
Bahasa R adalah turunan dari bahasa S yang dirancang untuk analisis statistika dan grafik. Bahasa R menjadi salah satu bahasa pemrograman yang populer digunakan praktisi data seperti data scientist untuk mengolah dan menganalisis data. Pemrograman R banyak dipelajari oleh pemula maupun yang memiliki latar belakang IT yang ingin berprofesi sebagai data scientist. Untuk menerapkannya kita perlu menginstal RStudio dan dapat digunakan di berbagai platform seperti Windows dan MacOS. Selain itu bahasa R bersifat open source sehingga siapapun bisa menggunakannya.
Dalam pengolahan data, eksplorasi data merupakan hal yang penting untuk dilakukan. Tujuan dari eksplorasi data yaitu untuk memahami data sebelum dilakukan praproses data. Manipulasi data juga merupakan langkah penting dalam mengolah data. Manipulasi data bertujuan untuk mengorganisir data dan membuat data lebih rapi sehingga memudahkan proses analisis selanjutnya. Bahasa R menyediakan banyak package yang memudahkan eksplorasi dan manipulasi data, salah satunya yaitu Tidyverse. Apa itu Tidyverse? Yuk, simak pembahasannya dibawah ini!
1. Mengenal Tidyverse Package
Tidyverse adalah salah satu package di R yang berfungsi untuk pengolahan data import dan export data, membuat visualisasi data, dan pemodelan data. Data scientist wajib menguasai penggunaan package ini karena akan sangat membantu dalam mengolah data. Data scientist pasti akan berhadapan dengan berbagai jenis data dan perlu fungsi yang powerful untuk membantu pekerjaannya. Kita perlu menginstal Tidyverse sebelum menggunakannya, caranya dengan menuliskan sintaks berikut:
install.packages(tidyverse)
Jika sudah berhasil di install, panggil Tidyverse untuk menggunakannya caranya sebagai berikut:
library(tidyverse)
Di dalam Tidyverse terdapat beberapa package yang sering digunakan untuk manipulasi data hingga membuat grafik.
Baca juga : Kursus Belajar Data dengan Bahasa R Untuk Pemula
2. Manipulasi Data dengan dplyr
Dalam melakukan manipulasi data di R kita dapat menggunakan package dplyr. Package ini dibuat oleh Handley Wickham dan Roman Francois yang berisi kumpulan fungsi yang memudahkan manipulasi data yaitu antara lain:
sample() untuk mengambil sampel secara acak dari tabel
select() untuk mengambil data atau variabel yang dibutuhkan
arrange() untuk mengurutkan data
filter() untuk menyaring data
groupby() untuk mengelompokkan data
Beberapa alasan mengapa dplyr digunakan ketika melakukan manipulasi data yaitu pemrosesannya cepat sehingga meminimalisir waktu, kode yang simpel sehingga mudah dimengerti, dan penggunaan fungsi yang sistematis sehingga kode lebih rapi. Cara menginstall package dplyr yaitu sebagai berikut:
install.package(dplyr)
Sedangkan untuk memanggil dplyr yaitu dengan sintaks:
library(dplyr)
3. ggplot2 untuk Visualisasi Data
ggplot2 adalah package yang berfungsi membuat grafik yang merepresentasikan data dengan menerapkan warna, simbol, dan lainnya. Package ini memiliki banyak fungsi dan plot yang bisa kita pilih untuk memvisualisasikan data. Beberapa kelebihan yang dimiliki ggplot2 yaitu antara lain fleksibel dalam penggunaannya, fungsi yang lengkap untuk visualisasi, dan penggunaan metodenya tidak ribet. Cara install dan penggunaan package ggplot2 sama dengan package yang sudah dibahas di poin sebelumnya yaitu:
install.package(ggplot2) #install package
library(ggplot2) #memanggil ggplot2
Contoh visualisasi data dengan ggplot2 bisa dilihat dibawah ini:
Sumber: rpubs.com
4. Package readr dan tidyr
Package lainnya yang termasuk dalam tidyverse adalah readr dan tidyr. Data adalah komponen penting dalam melakukan analisis. Package readr memiliki fungsi-fungsi untuk membaca file dalam berbagai format yaitu csv, excel, text file, dan lainnya. Sintaks penggunaan readr dan keterangannya yaitu sebagai berikut:
data1_csv = read.csv(data1)
data1_csv adalah pendefinisian nama data yang akan dianalisis
read.csv untuk membaca data dalam format csv
data1 adalah sumber data
Package tidyr digunakan untuk merapikan data seperti handling missing value yang berfungsi menangani data yang hilang atau tidak lengkap. Bisa menggunakan fungsi drop_na() untuk menghapus data atau replace_na() untuk mengganti data. Fungsi gather() dan spread() pada tidyr sering digunakan untuk merapikan data.
Baca juga : Belajar Data Science: Bahasa Pemrograman R Cocok untuk Pemula
5. Belajar Penggunaan Berbagai Package Bahasa R di DQLab, Yuk!
Bagi pemula yang tidak memiliki background IT tentu akan kesulitan belajar pemrograman R. Namun jangan berkecil hati, dengan banyak berlatih perlahan tapi pasti kamu akan menguasai bahasa R. Salah satu caranya yaitu dengan mengikuti kursus data science yang menyediakan modul pembelajaran R. DQLab adalah platform belajar yang berfokus pada data science dengan modul-modul menarik yang membahas pemrograman untuk data science seperti R. Data dan kasus yang digunakan mirip dengan kasus nyata di dunia data. Yuk, mulai belajar dan bangun portofolio datamu di DQLab.id!
Penulis: Dita Kurniasari
Editor: Annissa Widya