Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Memahami Bahasa R untuk Dunia Professional Part 3

Belajar Data Science di Rumah 18-Juli-2022
https://dqlab.id/files/dqlab/cache/8f086dea5413ee61d2ec90fd8d977f53_x_Thumbnail800.jpg

Bahasa R adalah software dan bahasa pemrograman yang fokus ke pengolahan data terutama proses analisa data. Yang membuat R populer adalah fiturnya yang sangat kaya dimana saat ini terdapat lebih dari 13 ribu package, dari membaca file teks, database sampai penggunaan Machine Learning untuk analisa otomatis.


Seorang praktisi data pastinya akan banyak bekerja dengan berbagai tipe data. Oleh karena itu, pemrograman Dataframe salah satunya dengan Bahasa R akan sering mereka gunakan untuk mengolah data klien. Sebagai seorang Data Scientist, terkadang kita mendapatkan data dari klien yang disimpan dalam berbagai macam tipe file seperti flat files, Excel, database, web atau data dari software statistika seperti SAS, SPSS dan Stata. 


Namun, DQLab akan khusus membahas pada tipe file flat files saja. Flat files merupakan sebuah file teks sederhana yang menampilkan data sebagai table. Contoh dari flat files adalah CSV (Comma Separated Values) dan TSV (Tabbed Separated Values). Pada CSV, setiap data dipisahkan dengan menggunakan tanda koma (,) dan pada TSV setiap data dipisahkan dengan tab.


Yuk langsung saja kita pelajari bersama melalui artikel & video di bawah ini mengenai konsep dan penggunaan Dataframe pada R agar lebih mudah memahami seperti apa mengoperasikan Bahasa R.


Simak video berikut agar kamu semakin memahami bahasa R!



1. Melakukan Import File Teks

Untuk melakukan import flat files ke dalam R, kita dapat menggunakan fungsi read.csv(). Syntax dari fungsi read.csv() adalah sebagai berikut.

read.csv("nama_file.tsv" ,  sep = "	 " )

Argumen pertama yang dimasukkan ke dalam fungsi read.csv() adalah nama dari flat files yang akan di import ke dalam R. Setelah itu untuk sep atau separator, berisi pemisah dari flat files.


Apabila flat files memiliki extension CSV, maka untuk separator menggunakan tanda koma (,) atau dapat dibiarkan kosong karena read.csv memang dipergunakan untuk membaca file dengan extension CSV. Akan tetapi, apabila flat files memiliki extension TSV, maka untuk separator (sep) diisi dengan " ".


Berikut adalah salah satu contoh flat files TSV.

bahasa R

Baris pertama pada potongan gambar tersebut merupakan nama kolom atau field dari data. Setelah itu, setiap baris dapat disebut sebagai record  dan setiap fieldnya dipisahkan dengan menggunakan tab karena extension dari file tersebut adalah TSV. 


Struktur dari data TSV tersebut memiliki kemiripan dengan bentuk dataframe yang ada. Row pada dataframe sama dengan record dan kolom dari dataframe sama dengan field pada file TSV.


Baca juga : Kursus Belajar Data dengan Bahasa R Untuk Pemula


2. Dataframe pada R

Dataframe merupakan salah satu cara yang paling umum digunakan untuk menyimpan data di R. Berdasarkan definisinya, Dataframe merupakan sekumpulan vector yang memiliki ukuran data yang sama. Dataframe dapat menyimpan data dengan tipe data yang berbeda beda di dalamnya. Seperti contoh, ketika seorang Data Analyst sedang melakukan survey untuk kebutuhan Market Research, Pertanyaan-pertanyaan yang mungkin akan ditanyakan oleh Data Analyst adalah sebagai berikut:

  • œApakah Anda sudah bekerja? atau pertanyaan yang memiliki jawaban œYa/Tidak (Tipe Data : Logical)

  • œBerapakah umur Anda? (Tipe Data : Numeric)

  • œBagaimanakah pendapat Anda mengenai produk ini? (Tipe Data : Character)

Output atau jawaban-jawaban responden dari contoh pertanyaan tersebut, merupakan sebuah dataset yang terdiri dari berbagai macam tipe data.


Berikut akan DQLab lihatkan kepada sobat data seperti apa sih contoh tampilan Dataframe bawaan dari R.

R

Dataframe mtcars di atas yang merupakan Dataframe bawaan dari R, dapat digunakan untuk memperoleh gambaran lebih jelas mengenai apa itu Dataframe dan bagaimana bentuk dari Dataframe itu sendiri.


Fungsi head(nama_dataframe, jumlah_baris) dapat digunakan untuk menampilkan beberapa baris awal di Dataframe dan fungsi tail(nama_dataframe, jumlah_baris) dapat digunakan untuk menampilkan beberapa baris terakhir di Dataframe.


3. Mengakses Element pada Dataframe

Selain menggunakan head() dan tail(), terdapat cara lain yang juga sering digunakan untuk mendapatkan gambaran besar dari data. Cara ini adalah dengan menggunakan fungsi str() yang dapat menunjukkan struktur dari data yang dimiliki. Misalnya, fungsi str() ini dapat kita aplikasikan pada Dataframe  mtcars di atas untuk memperoleh beberapa informasi sebagai berikut:

  • Total observasi yang ada 

  • Total variable yang dimiliki 

  • Sebuah daftar atau list berisi nama variable

  • Tipe data dari setiap variable

Dengan mengaplikasikan function str(), insight mengenai data yang akan digunakan sebelum dianalisis dapat lebih mudah diperoleh.


Element yang terdapat di dalam Dataframe dapat diakses dengan menggunakan bantuan dari kurung siku ([]). Lalu, dengan menggunakan tanda koma (,), kita dapat mengindikasikan atau mendeskripsikan elemen mana yang akan dipilih atau diakses dari baris dan kolom yang ada. Seperti misalnya:

  • my_df[1,2], digunakan untuk memilih elemen yang terdapat pada baris pertama dan kolom kedua dari Dataframe my_df.

  • my_df[1:3, 2:4], digunakan untuk memilih elemen yang terdapat pada baris pertama sampai ketiga pada kolom kedua sampai keempat.


4. Melakukan Konversi Tipe Data dengan as.dataframe

Setelah menggunakan Dataframe bawaan dari R dan berhasil mengimplementasikan fungsi-fungsi sebelumnya, sangat memungkinkan untuk membuat Dataframe sendiri dari awal. Hal ini dapat dilakukan dengan menggunakan fungsi as.data.frame untuk mengubah suatu object atau variable menjadi sebuah Dataframe.

Contohnya, seorang praktisi data memiliki sebuah vector dan ingin mengubah vector tersebut menjadi sebuah Dataframe. Langkah yang dapat dilakukan yaitu dengan menggunakan Syntax untuk as.data.frame yang berupa as.data.frame(object_yang_akan_diubah_menjadi_dataframe). Setelah itu, untuk melakukan pengecekkan apakah object yang dikonversi sudah menjadi atau belum menjadi sebuah Dataframe dapat menggunakan function is.data.frame.


Selain fungsi yang dapat mengubah object menjadi Dataframe, terdapat fungsi lain yang dapat membuat Dataframe sendiri dari awal dengan menggunakan fungsi data.frame().


5. Melakukan Grouping pada Dataframe dengan aggregate()

Apa itu fungsi aggregate() dan apa kegunaannya? Aggregate() pada R berfungsi untuk membagi dataset menjadi beberapa bagian atau subset dan kemudian dapat digunakan untuk melakukan perhitungan statistika pada setiap subset yang dihasilkan, seperti menghitung sum, mean dan count.

Untuk contoh penggunaannya, perhatikan data pada tabel di bawah berikut.

bahasa R

Berdasarkan data yang disajikan pada table, fungsi aggregate() dapat digunakan untuk menghitung banyak hal, seperti misalnya :

  • Jumlah jam kerja tiap individu.

  • Rata-rata jam kerja berdasarkan hari.

Nah, untuk syntax dari fungsi aggregate() adalah sebagai berikut:

aggregate(x, by, FUN)

  • x : Dataframe atau salah satu field dari Dataframe.

  • by : list() berisi grouping element (yang menentukan grouping dari subset).

  • FUN : Function (fungsi agregasi yang digunakan, misalnya: sum, count, dsb.).


Untuk mendapatkan jumlah jam kerja tiap individu, maka x yang akan dihitung adalah jam kerja, by nama dengan function sum. Potongan codes yang dapat digunakan adalah:

aggregate(data$jam_kerja, list(data$nama), sum)

R


Baca juga : Belajar Data Science: Bahasa Pemrograman R Cocok untuk Pemula


Mulai sekarang buang jauh-jauh perasaan ragumu untuk memulai belajar Data Science dengan menggunakan Bahasa Pemrograman R. Jangan khawatir, meskipun kamu tidak memiliki latar belakang pendidikan Science, Technology, Engineering, & Math (STEM), kamu tetap bisa lho kuasai Data Science untuk siap berkarir di revolusi industri 4.0. 


Jika kamu tertarik ingin memperdalam skill bahasa R, kamu bisa bergabung dengan DQLab dan mencoba module baru dari DQLab yang berjudul œR Language, Data Preparation & Exploratory Data Analysis [EDA] - R Data Professional Part 3.


Dengan mengakses dan menyelesaikan module baru DQLab, beberapa kompetensi akan kamu dapatkan seperti:

Learning Outcome

  • Mampu mendefinisikan Dataframe pada R

  • Mengakses element pada Dataframe (tanpa menggunakan loops)

  • Mampu menggunakan fungsi lapply dan sapply untuk melakukan operasi terhadap elemen-elemen Dataframe

  • Mampu menggunakan fungsi as.dataframe untuk melakukan konversi tipe data lain ke Dataframe

  • Mampu mengenal format file teks dengan pemisah koma (csv) dan pemisah tab (tsv)

  • Membaca data dari file berformat tsv (tab separated) menggunakan fungsi read.csv ke dalam Dataframe

  • Mampu menggunakan fungsi agregasi data count, sum dan average pada Dataframe

  • Mampu melakukan grouping atau pengelompokan pada Dataframe, dengan menggunakan fungsi aggregate


Setelah itu kamu bisa membangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industri data yang sebenarnya! Tertarik untuk mencoba module baru R Language, Data Preparation & Exploratory Data Analysis [EDA] - R Data Professional Part 3, tunggu apalagi?


Jika kamu belum punya akun, caranya sangat mudah! Signup sekarang untuk mulai belajar data di DQLab.id atau bisa isi form di bawah ini ya! Selamat belajar sahabat DQ!


Penulis: Salsabila MR

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login