Ragam Encoding Machine Learning Categorical Data
Machine learning memiliki syarat khusus untuk bisa diproses dan menghasilkan model yang akurat. Salah satunya adalah data yang diinputkan harus bernilai numerik. Sedangkan kalian tahu kan jenis data terbagi menjadi numerik dan kategorikal? Nah kondisi ini mengharuskan praktisi data melakukan manipulasi dengan cara encoding data. Misalnya jika data hanya terbagi menjadi dua kategori seperti Ya atau Tidak akan lebih mudah menggunakan tipe one hot encoding. Jika datanya duplikat, maka bisa menggunakan dummy encoding. Jadi apa perbedaan dari tipe-tipe data tersebut? Yuk simak penjelasan berikut!
1. Apa itu Categorical Data?
Categorical data atau data kategorikal adalah data yang bersifat karakteristik dan umumnya direpresentasikan dalam kata atau bilangan yang tidak bisa diukur. Categorical data dibagi menjadi dua jenis, yaitu nominal dan ordinal.
Data nominal: data yang tidak memiliki urutan atau ranking. Contohnya jenis kelamin, warna mata, atau jenis produk.
Data ordinal: data yang memiliki urutan atau ranking. Contohnya tingkat pendidikan, kepuasan pelanggan, atau penilaian sekolah.
Machine learning tidak mampu mengolah data yang bersifat kategorikal. Sehingga perlu adanya proses manipulasi data sehingga seolah-olah terbaca sebagai data numerik yang kemudian dapat digunakan untuk proses analisis data. Tidak hanya bertujuan untuk memudahkan proses memodelkan machine learning, tapi dengan adanya encoding juga membantu mengurangi dimensi data, sehingga mempercepat waktu pemrosesan dan penyimpanan data.
Baca juga : Yuk Kenali Macam-Macam Algoritma Machine Learning!
2. One Hot Encoding
Tipe encoding yang pertama adalah one hot encoding. Tipe ini bisa digunakan pada data nominal atau yang tidak memiliki urutan. Cara encodingnya adalah mengubah categorical data menjadi sebuah vektor biner dengan nilai 1 pada kategori yang sesuai dan 0 untuk kategori lainnya. Perhatikan contoh berikut ini:
Data tersebut memiliki variabel ‘Animal’ yang berisi nilai yaitu Dog, Cat, Sheep, Horse, dan Lion. Jika dilakukan one hot encoding, maka data diubah dengan memiliki beberapa kolom yang terdiri dari masing-masing nilai. Untuk index dan kategorikal yang sesuai akan berlabel 1 (contoh pada index 0 dan kategorikal Dog, dilabeli 1) dan yang tidak bersesuaian berlabel 0.
3. Label Encoding
Jika pada one hot encoding kita menggunakan angka 0 dan 1, maka pada label encoding kita gunakan angka 0 sampai banyaknya data minus 1. Contohnya, dalam variabel ‘Kota’ berisi Bandung, Jogja, Kediri, dan Surabaya. Maka akan digunakan label 0, 1, 2, dan 3. Untuk lebih jelasnya perhatikan contoh berikut:
Jika diperhatikan pelabelan yang dilakukan tidak urut dari atas ke bawah melainkan berdasarkan abjad datanya. Delhi dilabeli 0, Gujarat dilabeli 1, dan seterusnya.
Baca juga : Bootcamp Machine Learning and AI for Beginner
4. Dummy Encoding
Dummy encoding adalah skema yang sebenarnya hampir mirip dengan one hot encoding, yaitu menggunakan angka 0 dan 1 untuk pengkodeannya. Namun, jika pada one hot encoding digunakan N variabel, maka dummy encoding menggunakan N-1 kode. Perhatikan perbedaannya pada contoh berikut ini.
Dummy encoding juga sering digunakan untuk data yang memiliki nilai duplikat. Seperti contoh berikut ini.
Untuk index data 0 dan 5 misalnya, terdapat input yang sama yaitu Delhi. Sehingga akan lebih mudah jika dilakukan pengkodean menggunakan dummy encoding. Hasilnya akan seperti berikut ini.
Untuk dapat memilih tipe encoding yang cocok, kalian perlu memperdalam pemahaman di machine learning dulu, loh. Mulai tertarik untuk belajar lebih dalam? Kalian bisa mulai dengan memperkuat praktik machine learning dulu di DQLab. Modul ajarnya lengkap dan bervariasi.
Semua skill yang dibutuhkan akan diajarkan. Dilengkapi studi kasus yang membantu kalian belajar memecahkan masalah dari berbagai industri. Bahkan diintegrasikan dengan ChatGPT. Manfaatnya apa?
Membantu kalian menjelaskan lebih detail code yang sedang dipelajari
Membantu menemukan code yang salah atau tidak sesuai
Memberikan solusi atas problem yang dihadapi pada code
Membantu kalian belajar kapanpun dan dimanapun
Selain itu, DQLab juga menggunakan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Tunggu apa lagi, segera Sign Up dan persiapkan diri untuk menguasai machine learning dengan mengikuti DQLab LiveClass Bootcamp Machine Learning & AI for Beginner !
Penulis : Dita Feby
Editor : Annissa Widya