Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Tipe Encoding di Machine Learning Categorical Data

Belajar Data Science di Rumah 16-Maret-2023
https://dqlab.id/files/dqlab/cache/376d781a3f06367e3ba844079265e817_x_Thumbnail800.jpeg

Machine learning memiliki syarat khusus untuk bisa diproses dan menghasilkan model yang akurat. Salah satunya adalah data yang diinputkan harus bernilai numerik. Sedangkan kalian tahu kan jenis data terbagi menjadi numerik dan kategorikal? Nah kondisi ini mengharuskan praktisi data melakukan manipulasi dengan cara encoding data. Proses ini mengubah data kategorikal menjadi data numerik yang dapat dibaca oleh machine learning.


Dalam machine learning, tipe encoding tergantung pada kebutuhan dan karakteristik data itu sendiri. Misalnya jika data hanya terbagi menjadi dua kategori seperti Ya atau Tidak akan lebih mudah menggunakan tipe one hot encoding. Jika datanya duplikat, maka bisa menggunakan dummy encoding. Jadi apa perbedaan dari tipe-tipe data tersebut? Yuk simak penjelasan berikut!


1. Mengenal Categorical Data

Machine Learning

Categorical data atau data kategorikal adalah data yang bersifat karakteristik dan umumnya direpresentasikan dalam kata atau bilangan yang tidak bisa diukur. Categorical data dibagi menjadi dua jenis, yaitu nominal dan ordinal. 

  • Data nominal: data yang tidak memiliki urutan atau ranking. Contohnya jenis kelamin, warna mata, atau jenis produk.

  • Data ordinal: data yang memiliki urutan atau ranking. Contohnya tingkat pendidikan, kepuasan pelanggan, atau penilaian sekolah.

Machine learning tidak mampu mengolah data yang bersifat kategorikal. Sehingga perlu adanya proses manipulasi data sehingga seolah-olah terbaca sebagai data numerik yang kemudian dapat digunakan untuk proses analisis data. Tidak hanya bertujuan untuk memudahkan proses memodelkan machine learning, tapi dengan adanya encoding juga membantu mengurangi dimensi data, sehingga mempercepat waktu pemrosesan dan penyimpanan data.


Baca juga : Yuk Kenali Macam-Macam Algoritma Machine Learning!


2. One Hot Encoding

Tipe encoding yang pertama adalah one hot encoding. Tipe ini bisa digunakan pada data nominal atau yang tidak memiliki urutan. Cara encodingnya adalah mengubah categorical data menjadi sebuah vektor biner dengan nilai 1 pada kategori yang sesuai dan 0 untuk kategori lainnya. Perhatikan contoh berikut ini.


Machine Learning


Data tersebut memiliki variabel ‘Animal’ yang berisi nilai yaitu Dog, Cat, Sheep, Horse, dan Lion. Jika dilakukan one hot encoding, maka data diubah dengan memiliki beberapa kolom yang terdiri dari masing-masing nilai. Untuk index dan kategorikal yang sesuai akan berlabel 1 (contoh pada index 0 dan kategorikal Dog, dilabeli 1) dan yang tidak bersesuaian berlabel 0.


3. Label Encoding

Jika pada one hot encoding kita menggunakan angka 0 dan 1, maka pada label encoding kita gunakan angka 0 sampai banyaknya data minus 1. Contohnya, dalam variabel ‘Kota’ berisi Bandung, Jogja, Kediri, dan Surabaya. Maka akan digunakan label 0, 1, 2, dan 3. Untuk lebih jelasnya perhatikan contoh berikut.


Baca juga : Kenali Algoritma Klasifikasi Machine Learning Terpopuler di Tahun 2021


Machine Learning


Jikadiperhatikan pelabelan yang dilakukan tidak urut dari atas ke bawah melainkan berdasarkan abjad datanya. Delhi dilabeli 0, Gujarat dilabeli 1, dan seterusnya.


4. Dummy Encoding

Dummy encoding adalah skema yang sebenarnya hampir mirip dengan one hot encoding, yaitu menggunakan angka 0 dan 1 untuk pengkodeannya. Namun, jika pada one hot encoding digunakan N variabel, maka dummy encoding menggunakan N-1 kode. Perhatikan perbedaannya pada contoh berikut ini.

Machine Learning

Dummy encoding juga sering digunakan untuk data yang memiliki nilai duplikat. Seperti contoh berikut ini.

Machine Learning

Untuk index data 0 dan 5 misalnya, terdapat input yang sama yaitu Delhi. Sehingga akan lebih mudah jika dilakukan pengkodean menggunakan dummy encoding. Hasilnya akan seperti berikut ini.


Machine Learning



Untuk dapat memilih tipe encoding yang cocok, kalian perlu memperdalam pemahaman di machine learning dulu, loh. Mulai tertarik untuk belajar lebih dalam? Pembahasan lebih detail ini dapat Sahabat DQ temukan di modul pembelajaran DQLab. Di sini kalian akan belajar mulai dari dasar hingga penerapan machine learning di beragam kasus. Sangat cocok bagi kalian yang pemula atau memiliki latar belakang Non IT. Selain modul pembelajaran didesain khusus, setiap praktik yang ada juga sudah secara mudah dilengkapi dengan Live Code Editor sehingga kalian tidak perlu install aplikasi tambahan. Yuk, segera Sign Up dan nikmati metode pembelajarannya!


Penulis : Dita Feby 

Editor : Annissa Widya  


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login