Metode Pengolahan Data untuk Text Mining, Yuk Cari Tahu

Belajar Data Science di Rumah 11-Mei-2021

https://dqlab.id/files/dqlab/cache/8508f8ccf80d1cedc84557bc9f34be8f_x_Thumbnail800.jpg

LinkedIn kami untuk info karir dan topik menarik

Daftar Isi:

1. Tokenizing
2. Stopwords
3. Regex

Metode pengolahan data sangat berguna untuk mencapai tujuan para peneliti, pebisnis, dan pastinya Data Scientist. Yang mana dalam prosesnya mencakup proses suatu proses pengumpulan, manipulasi dan pemrosesan data yang telah dikumpulkan tadi. Tanpa adanya proses pengolahan data, data-data tersebut tidak berarti apa-apa bagi organisasi maupun perusahaan manapun atau bagi penelitian apapun. Untuk itu, diperlukan metode pengolahan data untuk menemukan makna dibalik data-data tersebut. Pengolahan data dapat diterapkan untuk berbagai real case ataupun study case salah satunya yang akan kita bahas adalah untuk text mining.

Text mining merupakan suatu kegiatan menambang data, dimana data yang biasanya diambil berupa text yang bersumber dari dokumen-dokumen yang memiliki goals untuk mencari kata kunci yang mewakili dari sekumpulan dokumen tersebut sehingga nantinya dapat dilakukan analisa hubungan antara dokumen-dokumen tersebut. Biasanya akan muncul pertanyaan tentang bagaimana cara mengolah data text, sementara data-data akan diolah dalam bentuk angka-angka ? Semua itu akan terjawab pada artikel kali ini yang akan membahas 3 metode pengolahan data yang digunakan untuk text mining. Yuk, simak lebih lanjut.

1. Tokenizing

Jika kebetulan kamu pernah mengerjakan proyek analisis sentimen atau text mining, pasti kamu sudah tidak asing lagi dengan istilah yang satu ini. Tokenizing adalah metode untuk melakukan pemisahan kata dalam suatu kalimat dengan tujuan untuk proses analisis teks lebih lanjut. Sebelum melakukan tokenizing biasanya melakukan proses case folding yang didalamnya mencakup proses menghapus angka dan tanda baca yang tidak perlu, dan whitespace. Untuk melakukan proses tokenizing tidak sesederhana ketika kita langsung menggunakan fungsi split dalam codingan kita. Mengapa ? karena proses tokenizing ini akan merujuk pada salah satu jenis pengolahan bahasa paling hits saat ini yaitu NLTK. Nah, yang menjadi permasalahan NLTK belum support untuk bahasa Indonesia dan bahkan modul NLP dalam python yang support bahasa Indonesia secara umum pun masih sangat langka. Tapi, jangan khawatir karena di python masih tersedia library dan modul-modul yang bisa kita gunakan untuk proses ini antara lain :modul sastrawi, Indonesian stopwords only, spacy, atau wiktionary.

2. Stopwords

Langkah selanjutnya jika kita telah menyelesaikan proses tokenizing, langkah selanjutnya adalah prose stopwords yaitu proses menghilangkan kata penghubung. Jika, dalam bahasa Inggris "for" dan "the" dan dalam bahasa Indonesia misalnya adalah "di" dan "yang". Kita dapat melakukan proses stopwords dengan cara mengumpulkan kata yang paling sering muncul di corpus. Selain itu, dalam NLP stopword merupakan kata yang diabaikan dalam pemrosesan, kata-kata ini biasanya disimpan ke dalam stop lists. Tujuan utama dalam penerapan proses Stopword Removal adalah mengurangi jumlah kata dalam sebuah dokumen yang nantinya akan berpengaruh dalam kecepatan dan performa dalam kegiatan NLP.

3. Regex

Regular Expression atau dalam bahasa Indonesia disebut sebagai ekspresi reguler yang merupakan sebuah notasi yang dapat digunakan untuk mendeskripsikan pola dari kata yang ingin dicari. Sebagai contoh jika RE yang dibuat adalah "makan" maka kata yang akan cocok dengan pola ini hanya kata makan (sama persis dengan yang ada pada RE). Namun demikian regular expression juga menyediakan beberapa special karakter yang dapat digunakan untuk mencocokan karakter dengan pola-pola tertentu. Perlu diingat bahwa RE adalah case sensitive.

Oleh Karena itu maka dalam prosesnya diperlukan beberapa hal berikut untuk menspesifikkan kata mana yang sama persis. Misalnya kita bisa menggunakan wildcard atau penggunaan simbol titik, optionality atau penggunaan tanda tanya "?" untuk menandakan bahwa regular expression yang diberikan sebelum symbol tersebut bersifat optional, Repeatability, Choice, range, Complementation, Common special symbol dan spesial karakter lainnya. Regex menggunakan karakter garis miring terbalik untuk menunjukkan bentuk khusus, bisa menggunakan modul re dan menggunakan fungsi re.sub untuk menghapus suatu karakter. Dengan menggunakan modul/library re ini kita bisa menghilangkan wildcard (simbol titik ".").

4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!

Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:

Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.

Penulis : Rian Tineges

Editor : Annissa Widya Davita

Postingan Terkait

Teknik Analisis Data: Cegah Kredit Macet dengan Machine Learning

27 Oktober 2018

Kombinasikan Teknik Analisis Data Kualitatif untuk Bangun Insight dan Visualisasi Data Agar Semakin Menarik

28 Agustus 2020

Metode Pengolahan Data untuk Text Mining, Yuk Cari Tahu

Daftar Isi:

1. Tokenizing

2. Stopwords

3. Regex

Tags

Postingan Terkait

Teknik Analisis Data: Cegah Kredit Macet dengan Machine Learning

Kombinasikan Teknik Analisis Data Kualitatif untuk Bangun Insight dan Visualisasi Data Agar Semakin Menarik

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Buat Akun

Metode Pengolahan Data untuk Text Mining, Yuk Cari Tahu

Daftar Isi:

1. Tokenizing

2. Stopwords

3. Regex

Tags

Postingan Terkait

Teknik Analisis Data: Cegah Kredit Macet dengan Machine Learning

Kombinasikan Teknik Analisis Data Kualitatif untuk Bangun Insight dan Visualisasi Data Agar Semakin Menarik

Mulai Kariersebagai PraktisiData BersamaDQLab

Buat Akun

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab