Membuat Aplikasi dengan Algoritma Python

Belajar Data Science di Rumah 10-September-2021

https://dqlab.id/files/dqlab/cache/abea6ce15cd41b3b4f8ab3f4cc79be48_x_Thumbnail800.jpg

Algoritma Supervised Learning adalah tugas machine learning untuk mempelajari fungsi yang memetakan input ke output berdasarkan contoh pasangan input-output. Hal ini dapat menyimpulkan bahwa fungsi dari data pelatihan berlabel yang terdiri dari satu set contoh pelatihan.Dalam supervised learning, setiap contoh adalah pasangan yang terdiri dari objek masukan (biasanya vektor) dan nilai keluaran yang diinginkan.

Support Vector Machine atau (SVM) adalah unsupervised machine learning yang kuat namun fleksibel. Algoritma SVM ini sangat baik untuk klasifikasi dan regresi. Tapi umumnya, mereka digunakan dalam masalah klasifikasi. Pada tahun 1960-an, SVM pertama kali diperkenalkan tetapi kemudian mereka disempurnakan pada tahun 1990. SVM memiliki cara implementasi yang unik dibandingkan dengan yang lain algoritma pembelajaran mesin. Akhir-akhir ini, mereka sangat populer karena kemampuannya untuk menangani beberapa variabel kontinu dan kategorik. Model SVM pada dasarnya adalah representasi dari kelas yang berbeda dalam hyperplane di ruang multidimensi. Hyperplane akan dihasilkan secara iteratif oleh SVM sehingga kesalahan dapat diminimalisir. Tujuan dari SVM adalah untuk membagi dataset ke dalam kelas-kelas untuk menemukan hyperplane marginal maksimum.

Sementara decision tree adalah alat pemodelan prediktif yang dapat diterapkan di seluruh banyak sapek keputusan. Pohon keputusan atau Decision dapat dibangun dengan pendekatan algoritmik yang dapat membagi dataset dengan cara yang berbeda berdasarkan kondisi yang berbeda. Keputusan tre

Bagaimana perbedaan kedua algoritma supervised ini?

1. Kompleksitas Fungsi dan Jumlah Data Training

Masalah pertama adalah jumlah data training yang tersedia relatif terhadap kompleksitas fungsi "sebenarnya" (fungsi pengklasifikasi atau regresi). Jika fungsi sebenarnya sederhana, maka algoritma pembelajaran yang "tidak fleksibel" dengan bias tinggi dan varians rendah akan dapat mempelajarinya dari sejumlah kecil data. Tetapi jika fungsi sebenarnya sangat kompleks (misalnya, karena melibatkan interaksi kompleks di antara banyak fitur masukan yang berbeda dan berperilaku berbeda di bagian ruang masukan yang berbeda), maka fungsi tersebut hanya dapat belajar dari sejumlah besar data pelatihan dan menggunakan algoritma pembelajaran "fleksibel" dengan bias rendah dan varians tinggi. Ada batasan yang jelas antara masukan dan keluaran yang diinginkan.

2. SVM Kernel

Dalam praktiknya, algoritma SVM diimplementasikan dengan kernel yang mengubah ruang data input ke dalam formulir yang diperlukan. SVM menggunakan teknik yang disebut trik kernel di mana kernel mengambil ruang input berdimensi rendah dan mengubahnya menjadi ruang berdimensi lebih tinggi. Secara sederhana kata-kata, kernel mengubah masalah yang tidak dapat dipisahkan menjadi masalah yang dapat dipisahkan dengan menambahkan lebih banyak dimensi untuk itu. Itu membuat SVM lebih kuat, fleksibel dan akurat. Berikut ini adalah konsep penting dalam SVM:

Support Vectors: Datapoint yang paling dekat dengan hyperplane disebut support vektor. Garis pemisah akan ditentukan dengan bantuan titik data ini.
Hyperplane: Seperti yang dapat kita lihat pada diagram di atas, ini adalah bidang keputusan atau ruang yang dibagi antara satu set objek yang memiliki kelas yang berbeda.
Margin: Ini dapat didefinisikan sebagai celah antara dua garis pada titik data lemari dari kelas yang berbeda. Ini dapat dihitung sebagai jarak tegak lurus dari garis ke vektor pendukung. Margin besar dianggap sebagai margin yang baik dan kecil margin dianggap sebagai margin yang buruk.

3. Kelebihan dan Kekurangan SVM

Kelebihan pengklasifikasi SVM
Pengklasifikasi SVM menawarkan akurasi tinggi dan bekerja dengan baik dengan ruang dimensi tinggi. SVM pengklasifikasi pada dasarnya menggunakan subset dari poin pelatihan sehingga hasilnya menggunakan memori yang sangat sedikit.

Kelemahan pengklasifikasi SVM
Mereka memiliki waktu pelatihan yang tinggi sehingga dalam praktiknya tidak cocok untuk kumpulan data yang besar. Lain kerugiannya adalah pengklasifikasi SVM tidak berfungsi dengan baik dengan kelas yang tumpang tindih

4. Decision Tree dan Seluk Beluknya

Saat membuat simpul terminal dari pohon keputusan, satu poin penting adalah memutuskan kapan harus berhenti menumbuhkan pohon atau membuat simpul terminal lebih lanjut. Hal ini dapat dilakukan dengan menggunakan dua kriteria yaitu kedalaman pohon maksimum dan catatan simpul minimum sebagai berikut:

Kedalaman Pohon Maksimum: Seperti namanya, ini adalah jumlah maksimum simpul di pohon setelah simpul akar. Kita harus berhenti menambahkan simpul terminal sekali pohon

Catatan Node Minimum: Ini dapat didefinisikan sebagai jumlah minimum pelatihan pola yang menjadi tanggung jawab node tertentu. Kita harus berhenti menambahkan terminal node setelah pohon mencapai catatan simpul minimum ini atau di bawah minimum ini.

5. Prediksi dan Asumsi

Setelah membangun pohon keputusan, kita perlu membuat prediksi tentangnya. Pada dasarnya, prediksi melibatkan navigasi pohon keputusan dengan baris data yang disediakan secara khusus. Kita dapat membuat prediksi dengan bantuan fungsi rekursif, seperti yang dilakukan di atas.

Sementara berikut ini adalah beberapa asumsi yang kami buat saat membuat pohon keputusan: Saat menyiapkan pohon keputusan, set data latih adalah sebagai simpul akar. Pengklasifikasi pohon keputusan lebih memilih nilai fitur untuk kategorikal. Jika Anda ingin menggunakan nilai kontinu maka harus dilakukan diskritisasi sebelum model bangunan. Berdasarkan nilai atribut, record terdistribusi secara rekursif. Pendekatan statistik akan digunakan untuk menempatkan atribut pada setiap posisi node yaitu sebagai root simpul atau simpul internal.

6. Belajar Coding Dasar bersama DQLab Academy!

Berapa banyak dari kesalahan umum ini yang pernah sahabat data lakukan? Hal Ini bisa membuat frustasi pada awalnya, tetapi membuat kesalahan membuat kita menjadi programmer yang lebih baik, selama kita berusaha untuk mempelajarinya. Meskipun langkah pertama mungkin sulit, jangan mudah menyerah, dan terus coding yuk bersama DQLab Academy!

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.