JULY SPECIAL ! DISKON 96%
Belajar Data Science Bersertifikat, 12 Bulan hanya 180K!
1 Hari 16 Jam 6 Menit 23 Detik

Tools Data Science dengan Packages Tidyverse R

Belajar Data Science di Rumah 09-September-2023
https://dqlab.id/files/dqlab/cache/2-longtail-jumat-05-2023-09-09-093140_x_Thumbnail800.jpg

Data science memiliki beragam tools yang bisa dicoba dan diaplikasikan dalam dunia industri data maupun sekedar keperluan analisis. Misalnya jika ingin berkutat dengan analisis statistik dan paket visualisasi data yang simple hingga advanced, kalian bisa coba R, Excel, Tableau, dan Power BI.


Kalau ingin menggunakan bahasa pemrograman yang dengan sintaks yang sederhana dan cocok untuk pemula, Python bisa jadi pilihan juga untuk kamu pelajari. Nah, di pembahasan kali ini kita akan sedikit membahas terkait dengan tools data science yang dimiliki oleh bahasa pemrograman R yaitu tidyverse. 


Tidyverse adalah sekumpulan paket (packages) dalam bahasa pemrograman R yang dirancang untuk memfasilitasi analisis data yang efisien dan konsisten. Paket-paket dalam tidyverse mengutamakan prinsip-prinsip tidiness (ketertiban) dalam manipulasi, visualisasi, dan pemodelan data.


Tidyverse menyediakan seperangkat alat yang kuat untuk membantu analis data dan ilmuwan data dalam mengimpor, membersihkan, mengubah bentuk (reshape), menyusun ulang (arrange), menghitung, dan memvisualisasikan data. 


Terdapat beberapa packages yang bisa dioperasikan sesuai dengan kebutuhan dari masing-masing pengguna. Misalnya ggplot2 digunakan untuk membuat visualisasi data yang interaktif dan menarik, dplyr digunakan untuk manipulasi data, dan lain-lain. Penasaran dengan operasi tools data science melalui Tidyverse R? Jangan skip artikel ini ya sahabat DQLab!


1. Mengenal Tidyverse R

Tidyverse adalah sebuah kumpulan paket (packages) dalam bahasa pemrograman R yang dirancang untuk memudahkan analisis data dan visualisasi data. Tidyverse dikembangkan oleh Hadley Wickham dan koleganya dengan tujuan membuat analisis data lebih mudah dipahami dan lebih efisien.


Tidyverse terdiri dari beberapa paket yang saling terkait dan dirancang untuk bekerja bersama dengan baik. Beberapa paket utama dalam Tidyverse termasuk:

  • dplyr: Paket ini digunakan untuk melakukan manipulasi data, seperti pemilihan (selecting), filtering, grouping, dan summarizing.

  • ggplot2: Paket ini digunakan untuk membuat visualisasi data yang kaya dan informatif dengan mudah. Ini berdasarkan pada konsep "Grammar of Graphics".

  • tidyr: Paket ini digunakan untuk mengubah format data, khususnya mengubah data dari format "lebar" ke "panjang" atau sebaliknya.

  • readr: Paket ini digunakan untuk membaca data dari berbagai format file, seperti CSV, TSV, dan lainnya, dengan cepat dan efisien.


Baca juga: Data Science Adalah: Yuk Kenali Lebih Jauh Tentang Data Science


2. Install Packages Tidyverse

Langkah pertama adalah, kita perlu menginstall package tidyverse dan packages lainnya yang mendukung tidyverse. Gunakan perintah berikut untuk menginstall package yang dibutuhkan.

Data Science

kemudian, panggil package-package tersebut menggunakan fungsi library() sperti berikut.

Data Science


3. Penggunaan Packages Tidyverse

Seperti yang telah disebutkan sebelumnya bahwa setelah kita melakukan install packages tidyverse R, ada beberapa library maupun packages yang berperan dan banyak digunakan dalam keperluan analisis dan visualisasi data menggunakan bahasa pemrograman R.


Package reader, tidyr, dplyr dan ggplot2 (dan beberapa package lain yang tidak digunakan di tutorial ini) termasuk dalam bagian package tidyverse. tidyverse adalah kumpulan package yang dibuat oleh Hadley Wickham dkk untuk kebutuhan data science menggunakan R.


  • RMySQL digunakan untuk membuat koneksi antara R dan database MySQL. Beberapa fungsi yang akan digunakan pada tutorial ini antara lain dbConnect() yang berasal dari package DBI untuk membuat koneksi, dbReadTable() untuk import data dari database ke R dan fungsi dbDisconnect() untuk memutuskan koneksi yang sudah tidak digunakan.

  • readr berguna untuk import data dari tabular data file (csv, text file, dll).

  • tidyr memiliki fungsi-fungsi untuk “merapihkan” data. Terutama yang sering digunakan adalah fungsi gather() dan spread().

  • dplyr adalah package yang sangat berguna untuk melakukan manipulasi/transformasi data menggunakan R.

  • ggplot2 adalah salah satu package yang sangat banyak digunakan oleh pengguna R untuk kebutuhan visualisasi.


Baca juga: 3 Contoh Penerapan Data Science yang Sangat Berguna di Dunia Perindustrian


4. Penggunaan Operator Pipes (%)

Operator pipes digunakan untuk membuat fungsi di R, Misalkan f(a, x) adalah sebuah fungsi di R dengan argumen a dan x. kemudian fungsi g(b, z) adalah fungsi lain di R dengan argumen b dan z. Dengan menggunakan operator %>% kita dapat menuliskannya sebagai berikut.

Data Science

Sumber Gambar: Medium.com/@aristap


Dari kedua contoh di atas, dapat dilihat bahwa a adalah argumen pertama untuk fungsi f() dan b adalah argumen pertama untuk fungsi g(). Operator %>% “menyampaikan” objek a sebagai nilai untuk mengisi argumen pertama pada fungsi f(). Perhatikan ilustrasi di bawah ini.

Data Science


Misalkan objek a menjadi argumen pertama fungsi f() dengan a %>% f(x). Kemudia hasil dari a %>% f(x) dijadikan argumen pertama dari fungsi g(). Dengan kata lain b <- a %>% f(x) sehingga b %>% g(z). Hal ini dapat dilakukan secara berurutan dengan operator %>% sebagai berikut.

Data Science

Data Science

Sumber Gambar: Medium.com/@aristap



Wah, jadi makin seru kann buat belajar tools data science dengan tidyverse R? Sebagai perusahaan idaman banyak orang, tentu Sahabat DQ ingin kan bisa bekerja disana? Kalau kamu ingin mengejar karir sebagai praktisi data, kalian perlu mempersiapkan diri nih! Semua materi bisa kalian pelajari di DQLab.


Modul ajarnya lengkap dan bervariasi. Bahkan diintegrasikan dengan ChatGPT. Manfaatnya apa?

  • Membantu kalian menjelaskan lebih detail code yang sedang dipelajari

  • Membantu menemukan coding yang salah atau tidak sesuai

  • Memberikan solusi atas problem yang dihadapi pada code

  • Membantu kalian belajar kapanpun dan dimanapun


Selain itu, DQLab juga menggunakan live code editor dan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Tunggu apa lagi, segera Sign Up dan siapkan diri untuk berkarir di industri impian kalian! 


Penulis: Reyvan Maulid

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login