PAYDAY SALE! DISKON 95%
Belajar Data Bersertifikat 12 Bulan hanya 180K!
0 Hari 3 Jam 16 Menit 3 Detik

Linear Regression Algoritma Data Science Terpopuler

Belajar Data Science di Rumah 12-Desember-2022
https://dqlab.id/files/dqlab/cache/8dbbdc75ca441e8cb44a0f4cc581124a_x_Thumbnail800.jpeg

Data science merupakan salah satu ilmu yang kini semakin dibutuhkan di perusahaan. Posisi ini membantu perusahaan untuk mengembangkan bisnis berdasarkan data yang dimiliki. Salah satu kelebihan dari data science adalah mampu memprediksi masa depan secara akurat, efektif, dan efisien. Tentunya hal ini dapat dilakukan dengan bantuan beragam algoritma yang ada. Algoritma ini akan membaca data yang dimiliki dan memodelkannya sesuai tujuan yang diinginkan.


Algoritma data science ada beragam. Terbagi menjadi supervised dan unsupervised learning. Jenis ini bergantung dari kondisi data dan tujuan yang ingin dicapai. Salah satu algoritma yang cukup populer dan mudah diaplikasikan adalah linear regression. Bagi Sahabat DQ yang masih pemula dalam mempelajari data science, algoritma linear regression dapat menjadi langkah awal untuk memahami cara kerja data science dalam memprediksi masa depan. Yuk, simak penjelasan lebih lengkapnya di artikel ini!


1. Mengenal Linear Regression 

Linear regression adalah salah satu algoritma yang digunakan data science dan tergolong pada algoritma supervised learning. Algoritma ini menggunakan prinsip regresi. Regresi membuat model prediksi untuk target variabel berdasarkan dari variabel bebasnya. Jenis algoritma ini sering digunakan untuk mencari hubungan antara variabel-variabel yang ada dan prediksinya. Sehingga pada linear regression, ditujukan untuk melakukan prediksi pada variabel terikat (y) berdasarkan variabel bebas yang diberikan (x). Hasil akhirnya berupa hubungan linear antara variabel input (x) dengan variabel output(y). Berikut gambaran sederhana dari linear regression.


Data Science


Pada gambar di atas, variabel input (x) berupa jumlah karyawan dan variabel output (y) adalah waktu proyek yang dibutuhkan dalam hari. Hasilnya berupa garis lurus karena ada hubungan linear antara variabel x dan variabel y. Contoh lain dari linear regression adalah pengalaman kerja karyawan (variabel x) dengan gaji yang diperoleh (variabel y). Bentuk matematika dari linear regression adalah sebagai berikut.

Data Science

Seperti penjelasan sebelumnya, y adalah variabel output yang akan diprediksi, x adalah variabel input, θ1 adalah titik potong, dan θ2 adalah nilai koefisien terhadap x. Model yang dibuat menghasilkan solusi terbaik jika mampu menemukan nilai terbaik pula untuk θ1 dan θ2. Artinya, kedua nilai tersebut dapat diperbarui hingga mendapatkan nilai terbaik dengan beragam cara evaluasi. Metodenya akan dibahas lebih detail pada sub pembahasan yang berbeda.


Baca juga : Memahami Keunggulan dan Manfaat Data Science dalam Dunia Bisnis  


2. Macam-macam Linear Regression

Linear regression dibedakan menjadi dua jenis berdasarkan jumlah variabel terikatnya. Pertama simple linear regression yang telah dibahas sebelumnya. Pada linear regression ini, jumlah variabel terikatnya hanya ada satu. Artinya model diprediksi berdasarkan input dari satu variabel saja.


Selanjutnya adalah multiple linear regression. Pada jenis ini, variabel bebas atau inputnya lebih dari satu. Artinya hasil prediksi satu variabel terikat dipengaruhi oleh sejumlah variabel bebas yang ada. 


Data Science


Contohnya akan dilakukan prediksi perkembangan tumbuhan anggrek berdasarkan temperatur, curah hujan, jenis tanah, dan jenis pupuk. 


Berikut contoh model prediksi menggunakan multiple linear regression.


Data Science

Gambar di atas adalah model prediksi menggunakan multiple linear regression dalam kasus prediksi persentase penyakit jantung terhadap kebiasaan bersepeda dan merokok. 


3. Metriks Untuk Evaluasi Linear Regression

Metriks yang paling populer untuk mengevaluasi performa dari linear regression adalah skor R2. Secara matematis, memiliki bentuk rumus sebagai berikut. 


Data Science


Skor R2 terletak diantara 0 dan 1. Jika skor R2 mendekati nilai 1, maka nilai prediksi mendekati nilai sebenarnya. Atau bisa disimpulkan bahwa model prediksi yang dibuat baik. Sebaliknya jika skor R2 mendekati 0, maka model prediksi memiliki kualitas yang buruk. 


Selain skor R2, ada beberapa metriks lainnya yang bisa digunakan untuk mengevaluasi performa model linear regression.

  • MSE (Mean Square Error): mengevaluasi model dengan melihat nilai error suatu prediksi berdasarkan konsep jarak Euclidean.

  • MAE (Mean Absolute Error): mengevaluasi model dengan melihat nilai error suatu prediksi berdasarkan konsep Manhattan. Model akan dikatakan baik jika kedua nilai MSE atau MAE kecil.

  • ME(Mean Error): mengevaluasi model dengan melihat nilai error dengan kesimpulan model over-predicting (ME > 0) atau under-predicting (ME < 0). 


4. Kelebihan dan Kekurangan Linear Regression

Data Science

Linear regression memiliki beberapa kelebihan dan kekurangan jika digunakan untuk memprediksi suatu model. Berikut beberapa kelebihan dari linear regression:

  • Mudah diimplementasikan dan diinterpretasikan. Hal ini karena linear regression hanya melihat keterhubungan dari variabel input (x) dan variabel output (y) saja.

  • Menghasilkan model prediksi yang paling akurat untuk data yang bersifat linear.

  • Mudah untuk dilakukan evaluasi dan memiliki beragam metode atau metriks yang mudah diterapkan

Sayangnya, linear regression juga memiliki beberapa kelemahan atau kekurangan. Diantaranya adalah:

  • Data bersifat linear hanya berdasarkan asumsi, bukan dari hasil uji spesifik.

  • Sering menghasilkan model prediksi yang overfitting, artinya terlalu bagus dan tidak nyata. Ini buruk untuk digunakan pada beragam input baru nantinya. 

  • Sensitif terhadap outliers.

  • Jika pemilihan variabel input tidak dilakukan dengan hati-hati atau teliti, maka akan mempengaruhi kualitas model prediksi.


Baca juga : 3 Contoh Penerapan Data Science yang Sangat Berguna di Dunia Perindustrian


5. Studi Kasus Penggunaan Linear Regression

Algoritma linear regression banyak digunakan untuk menyelesaikan permasalahan di berbagai bidang. Contohnya yaitu:

  • Prediksi harga rumah berdasarkan beberapa faktor

  • Prediksi penjualan tahunan

  • Evaluasi risiko investasi

Untuk lebih jelasnya, kali ini Sahabat DQ dapat melakukan praktik dengan menggunakan dataset yang sudah disediakan oleh Python. Ikuti langkah-langkah berikut.


Pertama, siapkan dataset yang sudah diberikan oleh modul sklearn (scikit-learn) pada Python. Di sini akan digunakan dataset diabetes.


Data Science


Selanjutnya lakukan eksplorasi data. Kalian bisa mulai dengan cek nilai missing value, sebaran data, dan beragam eksplorasi lainnya untuk mengenal data. Di sini dilakukan eksplorasi label data untuk mengetahui data input (x) dan data output (y). Berikut contohnya.


Data Science


Selanjutnya, dilakukan split data input (x) dan data output (y). Berikut contohnya.

Data Science

Kemudian split data menjadi data train dan data test. Secara sederhana data train digunakan untuk membuat prediksi. Kemudian data test adalah data yang digunakan untuk melakukan tes terhadap model prediksi yang telah dibuat. Di sini digunakan 30 data untuk data train dan 20 data untuk data test.

Data Science


Langkah selanjutnya, data siap untuk digunakan membangun model menggunakan linear regression. 

Data Science

Untuk melihat akurasi suatu model, bisa digunakan beragam metriks yang dibahas sebelumnya. Sebagai contoh, di sini digunakan metriks MSE.

Data Science

Sahabat DQ juga bisa melihat plotting dari hasil prediksi agar lebih mudah untuk memahami dan mengevaluasi hasilnya.

Data Science


Contoh di atas adalah salah satu pemanfaatan algoritma data science. Selain linear regression masih banyak algoritma lainnya yang juga digunakan untuk menyelesaikan permasalahan. Semakin mahir Sahabat DQ mengenal beragam algoritma, semakin terampil pula kalian memilih algoritma yang tepat berdasarkan kasus tertentu. Nah, kemampuan ini dapat dibangun jika Sahabat DQ sering latihan. Tak perlu khawatir, website DQLab telah menyediakan modul pembelajaran dengan beragam studi kasus terupdate di berbagai industri.Pembahasannya mudah dipahami, dan terdapat Live Code Editor sehingga praktis tanpa memerlukan install aplikasi lagi. 


Data Science


Yuk, segera daftarkan diri kalian dengan Sign Up untuk mengasah kemampuan menggunakan beragam algoritma data science dalam menyelesaikan kasus-kasus di kehidupan nyata!

Penulis : Dita Feby 

Editor : Annissa Widya



Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login