PROMO SPESIAL NEW YEAR SALE, DISKON 98%
Belajar Data Science Bersertifikat, 6 Bulan hanya 99K!
0 Hari 1 Jam 3 Menit 27 Detik

Mahir Bahasa R dengan Belajar Mengolah Data Text pada R

Belajar Data Science di Rumah 21-Juli-2022
https://dqlab.id/files/dqlab/cache/286ccc6684735a8edcd8a31cafd02f89_x_Thumbnail800.jpg
Follow Instagram dan LinkedIn kami untuk info karir dan topik menarik

Bahasa R adalah bahasa pemrograman yang ditujukan untuk statistik dan visualisasi data. Dari awal, bahasa R ini dikembangkan oleh orang-orang atau komunitas yang punya fokus dibidang statistik dan pengolahan data. Sehingga tidak mengherankan R kerap dijadikan tools andalan dalam mengolah data, termasuk big data.


Big data setidaknya memiliki 3 karakteristik, yakni volume, variety, dan velocity. Untuk karakteristik yang pertama, volume data terus bertambah dan akan terus bertambah setiap harinya. Bukan hanya yang data berstruktur, volume data yang tidak terstruktur juga terus menerus bertambah, malah meningkat secara eksponensial.


Bahasa R memiliki banyak base function maupun library yang membantu menangani data yang tidak terstruktur. Jika kita telisik jauh ke belakang, pengumpulan data tidak terstuktur dalam jumlah yang besar (big) menjadi hal yang mahal. Namun hari ini, dengan teknologi penyimpanan data yang terus meningkat, baik dari sisi kehandalan maupun kapasitas. Ditambah dengan adanya sosial media, data dalam bentuk tidak terstruktur seperti gambar, video maupun teks bisa terdokumentasi dengan baik. 


Dimana poin penting selanjutnya bisa dianalisis untuk menciptakan keputusan yang bisa berdampak baik pada organisasi maupun perusahaan. Akan menjadi kerugian jika kita memiliki data tidak terstuktur seperti teks yang tidak diolah karena keterbatasan œskill.


Oleh karena itu, artikel ini akan meringkas modul baru DQLab yang berjudul œR Language, Data Preparation & Exploratory Data Analysis [EDA] - Bekerja dengan Data Text pada R. Salah satu skill yang diperlukan dalam mengelola dan mengolah data berupa teks menggunakan bahasa R. 


Dengan mengerjakan module œR Language, Data Preparation & Exploratory Data Analysis [EDA] - Bekerja dengan Data Text pada R, kamu akan menguasai beberapa skill diantaranya adalah :

  • Mengenal tipe data Character / String pada R

  • Mampu mengenal karakteristik dataset datalahir_teks_dqlab.txt dan rencana pengolahannya

  • Mampu menggunakan fungsi dasar pengolahan data character sebagai berikut:

    • strsplit untuk memisahkan data awal yang semuanya ada dalam satu kolom dan dipisahkan dengan |||

    • paste untuk menggabungkan data dari 2 (kota/kabupaten) dan propinsi sebagai satu kesatuan lokasi (Sebagai contoh: Malang dan Jawa Timur menjadi Malang, Jawa Timur)

    • len, substr, dan sub untuk melakukan konversi format yang masih dalam bentuk format nama bulan menjadi format tanggal dengan angka semua  (Sebagai contoh: 1 Januari 2001 diubah menjadi 01-01-2001)

  • Mampu menggunakan fungsi grep untuk memanipulasi teks dengan REGEX sederhana, yaitu mencari angka pada kolom nama (dengan pola d+) dan menghapusnya


1. Data character atau string

Terdapat beberapa tipe data yang dapat dikelola menggunakan R, salah satunya adalah character atau string. Data character atau string pada R ditandai dengan adanya tanda kutip ("....")  atau kutip dua (œ...) di antara nilainya.  Contoh data character atau string adalah sebagai berikut.

  • "123"

  • "Data Science"

  • "Ayo belajar Data Science di DQLab" 

Tentunya nilai character ini bisa kita simpan ke struktur dataframe atau lainnya.


2. Apa yang dilakukan pada data text?

Kita harus menghabiskan waktu lebih lama untuk melakukan proses wrangling sebelum akhirnya bisa dianalisis lebih lanjut. Beberapa hal yang harus kita lakukan dalam mengolah data teks diantaranya:

  • Membersihkan data teks tersebut apabila terdapat format yang berbeda-beda;

  • mengekstrak data yang terdapat pada teks, 

  • mendeteksi pola atau pattern yang terdapat pada teks. Pola pada data teks mungkin tidak dapat langsung terlihat seperti pada data numerik. 


Baca juga : Kursus Belajar Data dengan Bahasa R Untuk Pemula 


3. Membuat data teks

Seperti yang disebutkan di atas, data teks ditandai dengan tanda kutip satu maupun dua. Sehingga untuk membuat data teks kita cukup memasukkan nilainya ke dalam tanda kutip tersebut. Berikut contohnya.

```
teks <- data.frame(
  nama_lengkap = c("Andita_Dita", "Amel_Amelia", "Nur_Yamin")
)
teks
```

Berikut data teks yang telah kita buat.

https://dqlab.id/files/dqlab/file/data-web-1/data-user-4/postgroup/0f0327126cebe99dff31890ba2cd7777/unnamed-61-2024-10-23-103855.png


Untuk mengecek tipe datanya, kita bisa menggunakan fungsi class.

```
#mengecek
class(teks$nama_lengkap)
```

https://dqlab.id/files/dqlab/file/data-web-1/data-user-4/postgroup/0f0327126cebe99dff31890ba2cd7777/unnamed-62-2024-10-23-103932.png



4. Beberapa fungsi dalam mengolah teks

Selanjutnya kita akan menggunakan beberapa fungsi yang sering dimanfaatkan dalam mengolah data teks. Pertama kita akan coba membagi kolom nama_lengkap menjadi 2 kolom, yakni nama_depan dan nama_belakang.


Pada di atas jelas, bahwa pemisah antara nama depan dan nama belakang adalah tanda œ_. Sehingga akan kita gunakan sebagai pemisah teks. Disini akan digunakan packages tidyr, install terlebih dahulu jika belum tersedia di perangkat sahabat data.

```
library(tidyr)
pisah_teks <- teks %>%
  separate(nama_lengkap, c("nama_depan", "nama_belakang"), "_")
pisah_teks
```

https://dqlab.id/files/dqlab/file/data-web-1/data-user-4/postgroup/0f0327126cebe99dff31890ba2cd7777/unnamed-63-2024-10-23-103959.png

Mudah bukan? Selanjutnya, kita coba gabungkan kembali kolom nama_depan dan nama_belakang menjadi nama_lengkap. Disini kita akan gunakan tanda spasi untuk penghubung nya. Untuk menggabung teks kita bisa gunakan fungsi paste0.

```
pisah_teks$nama_lengkap <- paste0(pisah_teks$nama_depan,"  ", pisah_teks$nama_belakang)
pisah_teks
```

https://dqlab.id/files/dqlab/file/data-web-1/data-user-4/postgroup/0f0327126cebe99dff31890ba2cd7777/unnamed-64-2024-10-23-104027.png

Nah, disini kita sudah berhasil menggabung 2 kolom nama_depan dan nama belakang. Bagaimana, serukan mengolah data teks?


Baca juga : Belajar Data Science, Bahasa Pemrograman R Cocok untuk Pemula


Simak video dibawah ini untuk penjelasan lengkapnya!



Masih sangat banyak fungsi yang dapat dimanfaatkan dalam mengolah data teks. Misal mengubah karakter tertentu di tengah teks. Tertarik mempelajari lebih dalam mengenai cara bekerja dengan data text menggunakan R?


Dapatkan semua materi yang kamu butuhkan dalam mengelola data teks melalui modul DQLab œR Language, Data Preparation & Exploratory Data Analysis [EDA] - Bekerja dengan Data Text pada R


Tunggu apalagi? Sign up segera di DQLab!


Penulis: Ashari Ramadhan

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login