3 Proses Pengolahan Awal Data Teks yang Harus Kamu Ketahui

Belajar Data Science di Rumah 20-Mei-2021

https://dqlab.id/files/dqlab/cache/966224cd525c515c6b1fc048ace28699_x_Thumbnail800.jpg

Di era digitalisasi, data teks merupakan jenis data yang paling banyak ditemukan, mulai dari facebook, twitter, instagram, web, blog, hingga review produk oleh pelanggan. Di era big data, data diibaratkan sebagai bahan bakar baru dan data teks diibaratkan sebagai sumber minyak yang masih perlu kita gali. Sebelum menggunakan data, kita perlu mengolah data tersebut agar sesuai dengan tools yang akan kita gunakan. Sebelum masuk ke tahap pengolahan, data terlebih dahulu dibersihkan dan ditransformasi. Dalam proses data mining, perlu adanya framework untuk menggali dan mengumpulkan data, melakukan pemrosesan awal data, eksplorasi dan visualisasi data, pembuatan model, hingga evaluasi model.

Pengolahan awal data teks dibedakan menjadi 3 kategori proses, yaitu tokenization, normalization, dan substitution atau penghapusan noise yang tidak berguna. Tiga proses ini tidak harus semuanya digunakan, kita bisa memutuskan akan menggunakan proses yang mana untuk mendapatkan format data teks yang kita butuhkan. Seorang data scientist yang baik, sudah seharusnya memahami ketiga proses awal tersebut karena setiap project pasti membutuhkan penanganan yang berbeda-beda. Pada artikel kali ini DQLab akan membantumu memahami apa yang dimaksud dengan tokenization, normalization, dan noise removal yang sering digunakan dalam pengolahan awal data teks. Penasaran? Let"s get started!

1. Proses Tokenization

Tokenization adalah proses pembagian teks yang panjang menjadi bagian yang lebih kecil. Bagian-bagian yang lebih kecil ini biasa dikenal dengan token. Pemrosesan akan dilanjutkan saat kalimat-kalimat tersebut telah menjadi token. Proses tokenization juga disebut dengan segmentasi teks atau analisis leksikal. Dengan kata lain, proses tokenization adalah proses pemecahan kalimat menjadi kata-kata penyusunnya. Proses ini terkesan mudah, namun pada kenyataannya proses ini sangat sulit. Proses pemisahan kata-kata dari kalimat dapat menggunakan tanda baca atau tanda spasi. Artinya jika dua kata dihubungkan menggunakan spasi, maka kata-kata tersebut akan dipisah berdasarkan tanda spasi.

2. Proses Normalization

Proses selanjutnya adalah proses normalization. Proses ini secara umum bertujuan untuk mengubah teks menjadi format yang sama, misalnya menghapus tanda baca, mengubah huruf kapital menjadi huruf kecil atau sebaliknya, dan lain sebagainya. Proses normalization dibagi menjadi dua kategori, yaitu stemming dan lemmatization.Stemming adalah prose menghilangkan imbuhan, baik sufiks, prefiks, infiks, maupun sirkumiks sehingga berubah menjadi kata dasar. Lemmatization adalah proses mengubah kata menjadi bentuk kanonik berdasarkan lemma kata. Contohnya kata better akan diubah menjadi good.

3. Proses Noise Removal

Proses noise removal bertujuan untuk menghapus hal-hal yang tidak perlu saat proses crawling data, seperti menghapus header dan footer teks, menghapus mark up dan metadata HTML, XML, dan lain sebagainya, serta mengekstrak data dari suatu format ke format lain seperti JSON yang bisa digunakan di bahasa pemrograman seperti R dan Python. Pada pengolahan data teks, proses yang banyak digunakan adalah proses tokenization dan normalization. Proses noise removal hanya digunakan saat adanya banyak teks atau objek yang tidak dibutuhkan.

4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!

Nikamati belajar data science secara praktis dan aplikatif bersama DQLab! Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:

Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.

Penulis : Galuh Nurvinda

Editor : Annissa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

3 Proses Pengolahan Awal Data Teks yang Harus Kamu Ketahui

1. Proses Tokenization

2. Proses Normalization

3. Proses Noise Removal

4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab