Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS!

Decision Tree: Machine Learning Model Terpopuler

Belajar Data Science di Rumah 03-April-2024
https://dqlab.id/files/dqlab/cache/kv-2-banner-longtail-selasa-07-2024-04-05-205446_x_Thumbnail800.jpg

Machine learning telah menjadi salah satu temuan yang berkembang pesat dalam beberapa tahun terakhir. Salah satu teknik yang sering digunakan adalah decision tree. Decision tree merupakan model yang memungkinkan untuk memprediksi nilai output berdasarkan serangkaian kondisi atau atribut. Dalam machine learning, decision tree juga dapat digunakan untuk memecahkan berbagai jenis masalah, baik untuk klasifikasi maupun regresi. Seperti apa penggunaan decision tree dalam kehidupan? Yuk simak pembahasan berikut ini!


1. Konsep Dasar Decision Tree

Decision tree merupakan struktur pohon yang terdiri dari node-node yang merepresentasikan keputusan dan cabang-cabang yang merepresentasikan konsekuensi dari keputusan tersebut. Setiap node dalam decision tree merepresentasikan variabel dalam dataset yang mempengaruhi keputusan dan konsekuensi tersebut.


Decision tree menjadi salah satu model machine learning yang paling populer dan paling sering digunakan dalam problem klasifikasi dan regresi. Digunakan untuk memecah data menjadi subset-subset yang semakin kecil dan homogen hingga didapatkan suatu hasil atau keputusan.


Jenis-jenis decision tree meliputi Classification Tree, Regression Tree, dan Multi-output Tree.

  • Classification tree adalah decision tree yang digunakan untuk memecahkan masalah klasifikasi. Dalam classification tree, variabel target atau dependen merupakan variabel kategorikal. Setiap cabang pada pohon decision tree merepresentasikan suatu keputusan yang dapat menghasilkan prediksi kelas atau label pada data yang diberikan.

  • Regression tree adalah decision tree yang digunakan untuk memecahkan masalah regresi. Dalam regression tree, variabel target atau dependen merupakan variabel kontinu. Setiap cabang pada pohon decision tree merepresentasikan suatu keputusan yang dapat menghasilkan prediksi nilai kontinu pada data yang diberikan.

  • Multi-output tree adalah decision tree yang digunakan untuk memecahkan masalah yang melibatkan lebih dari satu variabel target atau dependen. Multi-output tree dapat digunakan dalam problem klasifikasi maupun regresi, dan seringkali digunakan dalam masalah yang kompleks dan heterogen. 


2. Proses Kerja Decision Tree

Proses ini dapat dibagi menjadi beberapa tahap. Pertama pengumpulan dan persiapan data. Pada tahap ini, data yang diperlukan untuk membuat model decision tree dikumpulkan dan dipersiapkan. Data yang diperlukan terdiri dari variabel target atau dependen yang akan diprediksi, dan variabel prediktor atau independen yang digunakan sebagai acuan dalam membuat keputusan. Data yang diberikan dapat berupa data numerik atau kategorikal.


Selanjutnya, Pembentukan decision tree. pada tahap ini, decision tree dibentuk dari data yang telah dikumpulkan. Proses ini dilakukan dengan menggunakan algoritma decision tree seperti ID3, C4.5, CART, atau CHAID. Algoritma-algoritma tersebut akan memilih variabel prediktor yang paling informatif untuk dijadikan pemisah pada setiap cabang dari decision tree.


Setelah decision tree terbentuk, dilakukan pruning atau pemangkasan pada cabang-cabang yang tidak signifikan atau tidak memberikan kontribusi pada prediksi. Proses pruning bertujuan untuk menghindari overfitting atau kelebihan fitting pada model decision tree.


Setelah decision tree terbentuk dan dipangkas, model decision tree dievaluasi dengan menggunakan data yang belum dipakai selama pembuatan decision tree (data validasi atau testing). Evaluasi dilakukan dengan menghitung akurasi, presisi, recall, F1 score, dan metrik lainnya untuk menilai kualitas dan performa model decision tree.


Setelah decision tree terbukti memiliki performa yang baik, model decision tree dapat digunakan untuk memprediksi nilai target atau dependen pada data baru. Proses ini dilakukan dengan menggunakan model decision tree yang telah dibentuk dan diuji sebelumnya.


Baca juga : Yuk Kenali Macam-Macam Algoritma Machine Learning!


3. Kelebihan dan Kekurangan Decision Tree

Decision tree adalah salah satu metode machine learning yang populer karena memiliki kelebihan dan kekurangan yang cukup signifikan. Berikut adalah penjelasan lebih detail mengenai kelebihan dan kekurangan decision tree.


Kelebihan decision tree yaitu:

  • Mudah dipahami: Decision tree merupakan metode machine learning yang mudah dipahami karena hasilnya dapat dinyatakan dalam bentuk pohon keputusan yang dapat dimengerti oleh pengguna non-teknis.

  • Cocok untuk data non-linier: Decision tree dapat digunakan untuk menangani data yang memiliki pola non-linier atau hubungan antara variabel yang kompleks.

  • Tidak memerlukan normalisasi data: Decision tree dapat digunakan tanpa perlu melakukan normalisasi data seperti pada beberapa metode machine learning lainnya.

  • Mampu menangani variabel kategorikal: Decision tree dapat digunakan untuk menangani variabel kategorikal atau non-numerik dengan menggunakan teknik seperti one-hot encoding.

  • Dapat digunakan untuk klasifikasi atau regresi: Decision tree dapat digunakan untuk klasifikasi maupun regresi, tergantung pada jenis variabel target yang akan diprediksi.

  • Mampu menentukan variabel yang paling informatif: Decision tree dapat mengidentifikasi variabel yang paling informatif atau memberikan kontribusi terbesar dalam prediksi nilai target.


Sedangkan kekurangan decision tree yaitu:

  • Cenderung overfitting: Decision tree cenderung overfitting atau kelebihan fitting pada data training yang dapat mengurangi performa pada data testing atau validasi.

  • Tidak stabil terhadap perubahan data: Decision tree cenderung tidak stabil terhadap perubahan data sehingga model dapat berubah secara signifikan jika data berubah.

  • Tidak mampu menangani data kontinu: Decision tree tidak mampu menangani data kontinu atau numerik yang berkelanjutan dengan baik.

  • Sensitif terhadap noise: Decision tree sensitif terhadap noise atau data yang tidak relevan yang dapat mempengaruhi pembentukan model.

  • Memerlukan tuning parameter: Decision tree memerlukan tuning parameter seperti nilai minimum sample per leaf, nilai maximum depth, dan sebagainya untuk mengoptimalkan performa model.


4. Contoh Penerapan Decision Tree

Salah satu studi kasus yang berhasil menerapkan decision tree adalah pada bidang kesehatan, tepatnya dalam memprediksi kemungkinan seseorang terkena penyakit jantung. Pada studi kasus ini, data dari 303 pasien dengan 14 atribut seperti usia, jenis kelamin, tekanan darah, kadar kolesterol, dan riwayat merokok digunakan untuk membangun decision tree.


Hasil dari pembuatan decision tree menunjukkan bahwa faktor usia menjadi faktor terpenting dalam memprediksi risiko seseorang terkena penyakit jantung. Selain itu, tekanan darah dan kadar kolesterol juga memiliki pengaruh yang signifikan dalam memprediksi risiko tersebut. Dengan adanya decision tree ini, dokter dapat dengan mudah memasukkan data pasien dan memperoleh hasil prediksi risiko penyakit jantung dalam waktu singkat.


Keuntungan dari penerapan decision tree pada studi kasus ini adalah memudahkan dokter dalam memberikan diagnosis dan rekomendasi pengobatan dengan cepat dan akurat. Selain itu, decision tree juga dapat membantu dalam mengidentifikasi faktor-faktor yang berkontribusi pada risiko penyakit jantung, sehingga dapat dilakukan upaya pencegahan lebih dini.


Namun, kelemahan dari penerapan decision tree pada studi kasus ini adalah terdapat faktor-faktor lain yang dapat mempengaruhi risiko penyakit jantung seperti riwayat keluarga dan gaya hidup. Oleh karena itu, decision tree tidak dapat menjadi satu-satunya alat untuk memprediksi risiko penyakit jantung, namun dapat menjadi salah satu metode yang efektif dan efisien dalam membantu dokter dalam memberikan diagnosis dan pengobatan.


Baca juga : Bootcamp Machine Learning and AI for Beginner


Pada machine learning, banyak sekali model dan algoritma yang digunakan. Decision tree hanyalah salah satunya. Tapi dimana ya bisa belajar semua materi tersebut? DQLab solusinya. Modul ajarnya lengkap dan bervariasi. Semua skill yang dibutuhkan akan diajarkan. Dilengkapi studi kasus yang membantu kalian belajar memecahkan masalah dari berbagai industri. Bahkan diintegrasikan dengan ChatGPT. Manfaatnya apa?

  • Membantu kalian menjelaskan lebih detail code yang sedang dipelajari

  • Membantu menemukan code yang salah atau tidak sesuai

  • Memberikan solusi atas problem yang dihadapi pada code

  • Membantu kalian belajar kapanpun dan dimanapun


Selain itu, DQLab juga menggunakan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Tunggu apa lagi, segera Sign Up dan persiapkan diri untuk menguasai machine learning atau ikuti Bootcamp Machine Learning and AI for Beginner


Penulis : Dita Feby 

Editor : Annissa Widya

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login