Buat Akun DQLab & Akses Kelas Data Science Python, R, dan Excel GRATIS
 SIGN UP  

Metode untuk Analisis Data Teks dengan Kenali Natural Language Processing

Belajar Data Science di Rumah 20-September-2021
https://dqlab.id/files/dqlab/cache/d9cedf4c54d3c35b5ae1664c8c4d5586_x_Thumbnail800.jpg

Perkembangan teknologi digital membuat jenis data semakin beragam. Tidak hanya berbentuk angka yang ditampilkan dalam bentuk spreadsheet, kini semua hal yang memuat informasi bisa dijadikan data. Hal ini sejalan dengan salah satu 5V big data, yaitu variety. Secara umum, data ini dapat terbagi menjadi tiga kelompok besar, yaitu data terstruktur (data yang memiliki struktur yang jelas seperti data yang biasa ditemukan), data semi terstruktur, dan data tidak terstruktur (tidak memiliki struktur yang jelas).

Data teks merupakan salah satu jenis data yang termasuk ke dalam bagian dari kelompok data yang tidak terstruktur. Tentu saja data teks akan sangat susah untuk diolah menggunakan cara yang sama dengan pengolahan data terstruktur. Salah satu metode yang bisa digunakan adalah metode Natural Language Processing. Lalu apa sih sebenarnya NPL itu? Dan bagaimana proses agar data teks yang tidak terstruktur bisa digunakan untuk membuat keputusan? Yuk, simak artikelnya!


1. Apa Itu Natural Language Processing?

Natural Language Processing atau yang disingkat dengan NLP merupakan salah satu metode yang bisa digunakan untuk menganalisis data dalam bentuk teks. Metode ini mengangkat  cara interaksi manusia untuk bisa diimplementasikan ke dalam mesin. NLP ini termasuk ke dalam cabang dari Artificial Intelligence atau kecerdasan buatan, dimana berfokus pada data yang bersifat tidak terstruktur. NLP dapat terbagi menjadi empat tahapan, yaitu stemming, lemmatization, tokenization, dan parsing.


Baca juga : Analisis Data Adalah: Mengenal Pengertian, Jenis, Dan Prosedur Analisis Data


2. Stemming dan Lemmatization

Stemming merupakan proses menghilangkan imbuhan baik yang berada di awal kata ataupun yang berada di akhir.  Tujuannya adalah untuk mendapatkan kata dasarnya. Contohnya:

“di” dan “kan” yang ada dalam kata “dinantikan”

Sementara lemmatization adalah pengubahan kata dengan makna yang sama menjadi satu bentuk karena komputer akan membacanya sebagai data yang berbeda sehingga proses analisis akan menjadi lebih sulit. Contohnya:

“eat”,  “ate”, “eaten”, “eating” merupakan bentuk dari “eat”, sehingga akan diubah menjadi “eat”.


3. Tokenization dan Parsing

Tokenization merupakan proses pengubahan teks yang berkelanjutan menjadi unit yang berbeda, umumnya sering digunakan untuk mengubah sebuah kalimat menjadi unit kata. Contohnya:

“This is the example of tokenization” akan diubah menjadi “this”, “is”, “the”, “example”, “of”, “tokenization”. Unit-unit ini biasanya akan disebut sebagai token.

Sementara parsing adalah proses memecah kalimat per elemennya untuk menguji kesesuaiannya dengan tata bahasa.

  

4. Contoh Penggunaan NLP

Setelah mengenal tentang NLP dan juga tahapannya, kita juga harus mengetahui contoh dari penerapan NLP. Ternyata tanpa disadari, metode ini sudah sangat sering digunakan dalam kehidupan sehari-hari. Misalnya dalam aplikasi penerjemah bahasa seperti Google Translate,  moderasi konten hoax yang ada di sosial media, spam filtering pada email yang terindikasi spam, autocomplete pada email, dan masih banyak lagi.


Baca juga : Big Data Analytics dan Kegunaanya untuk Perkembangan Bisnismu


5. Yuk, Belajar Metode yang Lain di DQLab!

DQLab bisa kamu jadikan pilihan tempat kursus untuk mempelajari metode data science lainnya. Ada banyak modul yang disediakan di DQLab, yang dibalut dengan bahasa yang ringan dan mudah dimengerti oleh pemula. Bahasa pemrograman yang digunakan pun sangat sesuai dengan bahasa pemrograman yang sering digunakan oleh praktisi data, yaitu R, Python, dan SQL. Tenang saja, untuk menjadi member premium dan bisa menikmati berbagai modul, biaya yang dikeluarkan tidak akan membuat kantongmu bolong kok. Yuk, tunggu apa lagi? Buruan daftar dan nikmati semua modul yang ada!



Penulis : Gifa Delyani Nursyafitri

Sign Up & Mulai Belajar Gratis di DQLab!