Perbandingan Support Vector Machine dan Decision Tree

Belajar Data Science di Rumah 25-Juni-2021

https://dqlab.id/files/dqlab/cache/c69247c20e4949e48e084c7527b3b9ea_x_Thumbnail800.jpg

Dukungan mesin vektor (SVM) adalah unsupervised machine learning yang kuat namun fleksibel. Algoritma SVM ini sangat baik untuk klasifikasi dan regresi. Tapi umumnya, mereka digunakan dalam masalah klasifikasi. Pada tahun 1960-an, SVM pertama kali diperkenalkan tetapi kemudian mereka disempurnakan pada tahun 1990. SVM memiliki cara implementasi yang unik dibandingkan dengan yang lain algoritma pembelajaran mesin. Akhir-akhir ini, mereka sangat populer karena kemampuannya untuk menangani beberapa variabel kontinu dan kategoris.

Model SVM pada dasarnya adalah representasi dari kelas yang berbeda dalam hyperplane di ruang multidimensi. Hyperplane akan dihasilkan secara iteratif oleh SVM sehingga kesalahan dapat diminimalisir. Tujuan dari SVM adalah untuk membagi dataset ke dalam kelas-kelas untuk menemukan hyperplane marginal maksimum.

Sementara decision tree adalah alat pemodelan prediktif yang dapat diterapkan di seluruh banyak sapek keputusan. Pohon keputusan atau Decision dapat dibangun dengan pendekatan algoritmik yang dapat membagi dataset dengan cara yang berbeda berdasarkan kondisi yang berbeda. Keputusan trees adalah yang paling algoritma termasuk dalam kategori algoritma supervised.

Yuk lebih jauh kenalan dengan SVM dan Decision Tree

1. SVM Kernel

Dalam praktiknya, algoritma SVM diimplementasikan dengan kernel yang mengubah ruang data input ke dalam formulir yang diperlukan. SVM menggunakan teknik yang disebut trik kernel di mana kernel mengambil ruang input berdimensi rendah dan mengubahnya menjadi ruang berdimensi lebih tinggi. Secara sederhana kata-kata, kernel mengubah masalah yang tidak dapat dipisahkan menjadi masalah yang dapat dipisahkan dengan menambahkan lebih banyak dimensi untuk itu. Itu membuat SVM lebih kuat, fleksibel dan akurat. Berikut ini adalah konsep penting dalam SVM:

Support Vectors: Datapoint yang paling dekat dengan hyperplane disebut support vektor. Garis pemisah akan ditentukan dengan bantuan titik data ini.
Hyperplane: Seperti yang dapat kita lihat pada diagram di atas, ini adalah bidang keputusan atau ruang yang dibagi antara satu set objek yang memiliki kelas yang berbeda.
Margin: Ini dapat didefinisikan sebagai celah antara dua garis pada titik data lemari dari kelas yang berbeda. Ini dapat dihitung sebagai jarak tegak lurus dari garis ke vektor pendukung. Margin besar dianggap sebagai margin yang baik dan kecil margin dianggap sebagai margin yang buruk.

2. Kelebihan dan Kekurangan SVM

Kelebihan pengklasifikasi SVM

Pengklasifikasi SVM menawarkan akurasi tinggi dan bekerja dengan baik dengan ruang dimensi tinggi. SVM pengklasifikasi pada dasarnya menggunakan subset dari poin pelatihan sehingga hasilnya menggunakan memori yang sangat sedikit.

Kelemahan pengklasifikasi SVM

Mereka memiliki waktu pelatihan yang tinggi sehingga dalam praktiknya tidak cocok untuk kumpulan data yang besar. Lain kerugiannya adalah pengklasifikasi SVM tidak berfungsi dengan baik dengan kelas yang tumpang tindih

3. Decision Tree dan Seluk Beluknya

Saat membuat simpul terminal dari pohon keputusan, satu poin penting adalah memutuskan kapan harus berhenti menumbuhkan pohon atau membuat simpul terminal lebih lanjut. Hal ini dapat dilakukan dengan menggunakan dua kriteria yaitu kedalaman pohon maksimum dan catatan simpul minimum sebagai berikut:

Kedalaman Pohon Maksimum: Seperti namanya, ini adalah jumlah maksimum

simpul di pohon setelah simpul akar. Kita harus berhenti menambahkan simpul terminal sekali pohon

Catatan Node Minimum: Ini dapat didefinisikan sebagai jumlah minimum pelatihan pola yang menjadi tanggung jawab node tertentu. Kita harus berhenti menambahkan terminal node setelah pohon mencapai catatan simpul minimum ini atau di bawah minimum ini.

4. Prediksi dan Asumsi

Setelah membangun pohon keputusan, kita perlu membuat prediksi tentangnya. Pada dasarnya, prediksi melibatkan navigasi pohon keputusan dengan baris data yang disediakan secara khusus. Kita dapat membuat prediksi dengan bantuan fungsi rekursif, seperti yang dilakukan di atas.

Sementara berikut ini adalah beberapa asumsi yang kami buat saat membuat pohon keputusan: Saat menyiapkan pohon keputusan, set data latih adalah sebagai simpul akar. Pengklasifikasi pohon keputusan lebih memilih nilai fitur untuk kategorikal. Jika Anda ingin menggunakan nilai kontinu maka harus dilakukan diskritisasi sebelum model bangunan. Berdasarkan nilai atribut, record terdistribusi secara rekursif. Pendekatan statistik akan digunakan untuk menempatkan atribut pada setiap posisi node yaitu sebagai root simpul atau simpul internal.

5. Tingkatan Kemampuan dengan Belajar bersama DQLab

Penasaran dengan Aksara? Yuk bangun porto dan belajar mandiri secara praktis dan aplikatif dengan melakukan implementasi Algoritma Decision Tree bersama DQLab . Aksara akan tunjukkan jalannya. Jalan untuk menentukan credit anti macet bersama aksara.

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.