Metode Analisis Data : Kenali Beberapa Istilah yang Ada di Classification

Belajar Data Science di Rumah 04-Oktober-2021

https://dqlab.id/files/dqlab/cache/755726320387ec840df0c3f7293d0dd1_x_Thumbnail800.png

Classification merupakan salah satu contoh dari metode analisis data. Classification adalah teknik di mana kita bisa mengkategorikan data ke dalam sejumlah kelas yang telah ditentukan sebelumnya. Tujuan utama dari klasifikasi adalah untuk membantu praktisi data dalam menentukan kelas atau kategori dari data baru berdasarkan karakteristik data yang telah ada sebelumnya. Klasifikasi tidak hanya bisa dilakukan di data yang terstruktur, namun juga bisa digunakan untuk data yang tidak terstruktur.

Classification juga merupakan salah satu algoritma Machine Learning yang bersifat Supervised Learning, dimana data akan dikelompokkan berdasarkan label yang ada. Beberapa contoh metode yang termasuk Classification adalah Logistic Regression, Naive Bayes, K-Nearest Neighbours, Decision Tree, Random Forest, Support Vector Machine, dll. Nah, di dalam Classification ada beberapa istilah yang sering digunakan, apa saja sih?

1. Odds, Odds Ratio, Scaling, Class Imbalance

Odds merupakan peluang terjadinya sebuah kejadian dibandingkan kejadian lainnya. Umumnya rumus untuk mencari nilai odds adalah p/(1-p), p disini merupakan peluang untuk kejadian yang terjadi sehingga untuk kejadian lain bisa didapatkan dengan cara mengurangi 1 dengan p. Perbandingan antara dua odds disebut sebagai odds ratio. Sementara scaling merupakan cara untuk menyamakan skala dari beberapa variabel yang berbeda sehingga antara variabel yang satu dengan yang lain memiliki skala data yang seimbang.

Class imbalance sendiri merupakan keadaan dimana jumlah observasi antar kelas tidak seimbang. Hal ini bisa membuat model cenderung memilih kelas yang dominan sehingga akan mempengaruhi performa dari model yang ada.

2. Cross Validation Data Train, Data Test

Dalam pembuatan model Classification, kita membutuhkan data train dan juga data testing. Proses membagi data menjadi data train dan testing disebut dengan cross validation. Data train sendiri merupakan data yang digunakan untuk melakukan pembelajaran atau proses melatih model agar dapat mengetahui data seperti apa yang masuk ke label tertentu, sementara data testing digunakan untuk menguji seberapa jauh model mampu memprediksi data baru untuk masuk ke dalam label yang telah ditentukan.

3. Null Deviance, Residual Deviance, MLE

Null Deviance sendiri merupakan nilai yang menunjukkan seberapa mampu model memprediksi target variabel berdasarkan nilai intercept nya. Sementara residual deviance digunakan untuk menunjukkan seberapa mampu model memprediksi target variabel berdasarkan intercept dan semua predictor yang digunakan. Kemudian untuk MLE merupakan singkatan dari Maximum Likelihood Estimation, dimana MLE ini merupakan salah satu pendekatan statistika untuk mengestimasi parameter pada model logistic regression.

4. Sigmoid Function, Perfect Separation, Overfitting

Sigmoid Function merupakan fungsi yang dapat digunakan untuk mentransformasi nilai prediksi ke nilai peluang, dimana nilai peluang berada di rentang 0-1. Kemudian Perfect separation merupakan proses yang terjadi ketika variabel hasil memisahkan variabel prediktor atau kombinasi variabel prediktor sepenuhnya. Sementara overfitting adalah keadaan dimana model yang ada hanya mampu memprediksi dengan baik di data train. Ketika dicoba untuk memprediksi data test, hasilnya tidak sebaik ketika digunakan untuk memprediksi data test.

5. Kenali Metode Analisis Data Lainnya, Yuk!

Selain Classification, kamu juga bisa mempelajari metode analisis data lainnya di DQLab, loh! Ada banyak modul yang disediakan disini, mulai dari yang bersifat free modul, premium modul, dan platinum modul. Jika kamu masih ragu, kamu bisa mulai mencoba free modul terlebih dahulu agar kamu mengetahui culture belajar di DQLab. Ada dua modul yang termasuk ke dalam free modul, yaitu œIntroduction to Data Science with R dan œIntroduction to Data Science with Python. Yuk, tunggu apa lagi? Buruan sign up dan nikmati modul yang ada!

Penulis : Gifa Delyani Nursyafitri

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.