Studi Kasus Random Forest Machine Learning untuk Pemula Data

Belajar Data Science di Rumah 21-September-2022

https://dqlab.id/files/dqlab/cache/867ac9d74110f0ee8f9e04779a1e59c1_x_Thumbnail800.jpg

Bagian besar dari machine learning adalah klasifikasi jika Sahabat DQ ingin tahu kelas atau group apa yang termasuk dalam observasi maka, kemampuan secara tepat mengklasifikasikan pengamatan sangat berharga untuk berbagai aplikasi bisnis seperti memprediksi apakah pengguna tertentu akan membeli produk atau memperkirakan apakah pinjaman yang diberikan akan gagal bayar atau tidak.

Ilmu data menyediakan banyak sekali algoritma klasifikasi seperti logistic regession, support vector machine, pengklasifikasi naif Bayes, dan pohon keputusan atau decision tree. Tetapi di dekat bagian atas hierarki pengklasifikasi adalah random forest.

Random Forest adalah algoritma machine learning yang fleksibel dan mudah digunakan yang menghasilkan, bahkan tanpa menggunakan banyak parameter sehingga relatif menghasilkan hasil. Ini juga merupakan salah satu algoritma yang paling banyak digunakan, karena kesederhanaan dan keragamannya (dapat digunakan untuk tugas klasifikasi dan regresi).

Random Forest adalah algoritma pembelajaran yang supervised. "Forest" yang dibangunnya adalah kumpulan pohon keputusan, biasanya dilatih dengan metode "bagging". Ide umum dari metode bagging adalah kombinasi model pembelajaran meningkatkan hasil keseluruhan.

Mau tahu seperti apa implementasi Random Forest? Yuk simak selengkapnya disini ya

1. Logic Kerja Random Forest

Random Forest adalah algoritma pembelajaran supervised. “Forest” yang dibangunnya adalah kumpulan decision tree, biasanya dilatih dengan metode “bagging”. Ide umum dari metode bagging adalah kombinasi model pembelajaran meningkatkan hasil keseluruhan.

machine learning

Source: TensorFlow Blog

Sederhananya, Random Forest membangun beberapa decision tree dan menggabungkannya untuk mendapatkan prediksi yang lebih akurat dan stabil. Satu keuntungan besar dari Random Forest adalah dapat digunakan untuk masalah klasifikasi dan regresi, yang merupakan mayoritas sistem pembelajaran mesin saat ini.

2. Analogi Real Random Forest

Kroma ingin memutuskan ke mana harus pergi selama liburan satu tahun, jadi dia meminta saran dari orang-orang yang paling mengenalnya. Teman pertama yang dia cari bertanya kepadanya tentang suka dan tidak suka dari perjalanan masa lalunya. Berdasarkan jawaban, dia akan memberikan beberapa saran kepada Kroma.

Ini adalah pendekatan algoritma pohon keputusan yang khas. Teman Kroma membuat aturan untuk memandu keputusannya tentang apa yang harus dia rekomendasikan, dengan menggunakan jawaban Kroma.

Setelah itu, Kroma mulai meminta lebih banyak teman untuk menasihatinya dan mereka kembali mengajukan pertanyaan berbeda yang dapat mereka gunakan untuk mendapatkan beberapa rekomendasi. Akhirnya, Kroma memilih tempat yang paling direkomendasikan kepadanya, yang merupakan pendekatan algoritma Random Forest yang khas.

3. Fitur Random Forest

Kualitas hebat lainnya dari algoritma Random Forest adalah sangat mudah untuk mengukur kepentingan relatif dari setiap fitur pada prediksi. Sklearn menyediakan alat yang hebat untuk ini yang mengukur pentingnya fitur dengan melihat seberapa banyak simpul pohon yang menggunakan fitur itu mengurangi pengotor di semua pohon di hutan.

Ini menghitung skor ini secara otomatis untuk setiap fitur setelah pelatihan dan menskalakan hasilnya sehingga jumlah semua kepentingan sama dengan satu.

Dengan melihat pentingnya fitur, Sahabat DQ dapat memutuskan fitur mana yang mungkin dihapus karena tidak cukup berkontribusi (atau terkadang tidak ada sama sekali) pada proses prediksi. Ini penting karena aturan umum dalam pembelajaran mesin adalah bahwa semakin banyak fitur yang Sahabat DQ miliki, semakin besar kemungkinan model Sahabat DQ akan mengalami overfitting dan sebaliknya.

4. Perbedaan Decision Tree dan Random Forest

Sementara Random Forest adalah kumpulan pohon keputusan, ada beberapa perbedaan. Jika Sahabat DQ memasukkan dataset pelatihan dengan fitur dan label ke dalam pohon keputusan, itu akan merumuskan beberapa set aturan, yang akan digunakan untuk membuat prediksi.

Misalnya, untuk memprediksi apakah seseorang akan mengklik iklan online, Sahabat DQ dapat mengumpulkan iklan yang diklik orang tersebut di masa lalu dan beberapa fitur yang menjelaskan keputusan mereka.

Jika Sahabat DQ memasukkan fitur dan label ke dalam pohon keputusan, itu akan menghasilkan beberapa aturan yang membantu memprediksi apakah iklan akan diklik atau tidak. Sebagai perbandingan, algoritma Random Forest secara acak memilih pengamatan dan fitur untuk membangun beberapa pohon keputusan dan kemudian rata-rata hasilnya.

Perbedaan lainnya adalah pohon keputusan "dalam" mungkin mengalami overfitting. Sebagian besar waktu, Random Forest mencegah hal ini dengan membuat subset fitur secara acak dan membangun pohon yang lebih kecil menggunakan subset tersebut. Setelah itu, menggabungkan subtrees. Penting untuk dicatat bahwa ini tidak bekerja setiap saat dan juga membuat komputasi lebih lambat, tergantung pada berapa banyak pohon yang dibangun oleh Random Forest.

Belajar memulai karir sebagai praktisi data science dengan menggunakan Python, R dan SQL sederhana dengan sign up dan login melalui DQLab Academy! Yuk nikmati kemudahan belajar tanpa ribet melalui live code editor DQLab. Belajar sambil buat portfolio dengan modul DQLab!

Signup sekarang atau isi form dibawah ini ya Sahabat DQ!

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Studi Kasus Random Forest Machine Learning untuk Pemula Data

1. Logic Kerja Random Forest

2. Analogi Real Random Forest

3. Fitur Random Forest

4. Perbedaan Decision Tree dan Random Forest

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab