Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Algoritma Data Science untuk Credit Risk Analysis

Belajar Data Science di Rumah 10-Oktober-2022
https://dqlab.id/files/dqlab/cache/a0fd94d945fc0cffad8371f4cab3db01_x_Thumbnail800.jpg

Data science berhasil membuat revolusi pertumbuhan bisnis selama dekade terakhir. Hebatnya, sekarang sangat mungkin untuk menyusun data prediksi spesifik untuk mengekstraksi wawasan agar lebih bermanfaat untuk bisnis kamu.


Dalam proses bisnis selain untuk meningkatkan profit hal yang paling penting adalah memprediksi kemungkinan resiko yang akan terjadi. Credit score adalah nilai resiko yang diberikan kepada seorang individu atau organisasi yang mengajukan pinjaman berdasarkan rekam jejak pinjaman dan pembayaran yang dilakukan. 


Salah satu cara paling efektif untuk menghitung nilai resiko adalah dengan menerapkan algoritma data science. Penggunaan algoritma data science membuat komputer dapat memecahkan masalah, dengan membuat rumusan langkah-langkah penyelesaian tersebut dalam suatu rangkaian instruksi agar dapat memperoleh output yang diinginkan dari suatu inputan dalam waktu yang terbatas. 


Kira-kira contoh inplementasi algoritma data science untuk credit risk analysis seperti apa ya? Penasaran? Yuk, simak artikel DQLab sampai selesai!


1. Credit Risk dan Model Prediksi

Seperti yang sudah disinggung sebelumnya bahwa credit score adalah nilai resiko yang diberikan kepada seorang individu atau organisasi yang mengajukan pinjaman berdasarkan rekam jejak pinjaman dan pembayaran yang dilakukan.


Perhitungan credit score biasanya dibuat berdasarkan data historis lamanya keterlambatan pembayaran dan yang tidak bayar sama sekali (bad debt). Bad debt biasanya mengakibatkan lembaga pemberian kredit harus menyita aset atau melakukan write off .

 

Banyak yang mengadopsi model FICO Score yang memiliki rentang nilai 300 - 850. Semakin tinggi nilai yang didapatkan, maka semakin baik tingkat kemampuan seseorang atau sebuah lembaga untuk membayar pinjaman.


Terbalik dengan credit score, semakin tinggi rating ini menunjukkan resiko yang semakin meningkat. Selain itu kodifikasi juga dibuat lebih simpel  dibandingkan rentang nilai sehingga keputusan yang bisa diambil lebih cepat. 

 

Baca juga: Memahami Keunggulan dan Manfaat Data Science dalam Dunia Bisnis


2. Penggunaan Algoritma C5.0 untuk Menghasilkan Model Credit Risk

Sebelum membahas lebih dalam, apa itu algoritma C5.0? C5.0 adalah kode penamaan suatu algoritma untuk decision tree. Banyak algoritma lain seperti random forest, CART, CHAID, MARS, dan lain-lain. Namun C5.0 adalah algoritma yang sangat populer karena memiliki performa yang sangat baik dari sisi kecepatan maupun akurasi.


Algoritma ini sering dikategorikan sebagai classification, dimana tujuannya adalah untuk mengkategorikan atau mengklasifikan sesuatu - pada contoh kita risk rating - berdasarkan input dari data-data lain.


Sekarang saatnya kita akan menggunakan algoritma C5.0 untuk menghasilkan model decision tree dengan menggunakan fungsi yang juga bernama C5.0. Function ini juga memerlukan package R yang bernama "C50". Untuk lebih jelas, mari kita praktekan contoh berikut ini:

data science


3. Evaluasi Model

Setelah kita membuat suatu pemodelan menggunakan algoritma C5.0 kita perlu evaluasi model ini dengan confusion matrix. Confusion Matrix yang terdapat pada output model kita sebelumnya adalah evaluasi model menggunakan training set.


Untuk menghasilkan ini kita bisa gunakan fungsi dcast dari package reshape2, caranya adalah sebagai berikut.


data science

 

Data Science

Header kolom yang berwarna ungu menunjukkan risk_rating hasil prediksi, sedangkan header baris warna ungu menunjukkan data risk_rating sebenarnya. Diagonal warna biru menunjukkan jumlah data yang terprediksi dengan benar, dan warna merah menunjukkan data yang salah terprediksi.


Sekilas terlihat jumlah yang terprediksi dengan benar jauh lebih besar porsinya dibandingkan yang salah. Namun untuk yang 4 dan 5 ada sedikit catatan diman prediksi 5 itu kadang jatuh ke 4.


Namun ini bisa kita abaikan, karena 4 dan 5 memang beresiko tinggi. Untuk rasio persentase kebenaran dan kesalahan prediksi lebih detil akan kita hitung pada bagian berikutnya.

 

Baca juga : 3 Contoh Penerapan Data Science yang Sangat Berguna di Dunia Perindustrian


4. Menggunakan Model Untuk Prediksi

Tahap terakhir setelah kita melakukan evaluasi dan yakin akan akurasinya, model akan kita gunakan dalam keseharian untuk melakukan prediksi risk rating dari data baru. Mari perhatikan dan coba praktekan contoh berikut ini:


data science


Jika berjalan dengan lancar maka output dari perintah tersebut akan muncul sebagai berikut.

data science


Ini artinya hasil prediksi risk_rating untuk aplikasi baru ini adalah 4, dari kemungkinan 1, 2, 3, 4 dan 5. Nilai 4 ini adalah nilai resiko yang cukup tinggi, jadi bisa saja aplikasi baru ini ditolak sesuai dengan kebijakan lembaga peminjam.


Sahabat DQ ingin berkarir di bidang data science tapi, tidak memiliki background pendidikan yang linier dengan itu? Sudah mencoba belajar otodidak tapi malahan overdosis materi? Mengingat skill data science terbilang cukup banyak yang wajib dikuasai salah satunya adalah memahami algoritma data science nya hingga tahap penerapannya pada dataset. 


Yuk, coba free module Introduction to Data Science with R dan python dari DQLab sekarang Caranya gimana? Mudah banget kok cukup signup sekarang ke DQLab.id lalu pilih menu learn.


Setelah itu kamu sudah bisa menikmati pembelajaran yang praktis dan aplikatif dan jago algoritma data science bersama DQLab! Tunggu apa lagi? Yuk, signup sekarang dan mulai belajar Module Premium di DQLab!.

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login