MAU PUNYA SKILL DATA SCIENCE YANG AMAYZING?
Belajar Data Science 6 Bulan hanya 150K  | Pakai Kode: AMAYZING
BURUAN SERBU!
Pendaftaran ditutup dalam 0 Hari 0 Jam 32 Menit 0 Detik 

Belajar Python dengan Kenali Sedikit Mengenai Regresi Linier

Belajar Data Science di Rumah 06-September-2021
https://dqlab.id/files/dqlab/cache/4a6e16c16c65c6795fd121e4feeace3b_x_Thumbnail800.jpg

Regresi adalah alat statistik dan machine learning yang penting dan banyak digunakan. Tujuan utama dari task berbasis regresi adalah untuk memprediksi label keluaran atau tanggapan yang adalah nilai numerik berkelanjutan, untuk data input yang diberikan. Outputnya akan didasarkan pada apa model telah dipelajari dalam fase pelatihan. Pada dasarnya, model regresi menggunakan data input fitur (variabel independen) dan output numerik kontinu yang sesuai nilai (variabel dependen atau hasil) untuk mempelajari hubungan spesifik antara input dan output yang sesuai. 


Regresi linier sederhana berguna untuk menemukan hubungan antara dua variabel kontinu. Salah satunya adalah prediktor atau variabel independen dan lainnya adalah respon atau variabel dependen. Ini mencari hubungan statistik tetapi bukan hubungan deterministik. Hubungan antara dua variabel dikatakan deterministik jika satu variabel dapat dinyatakan dengan tepat oleh variabel lainnya. Misalnya, dengan menggunakan suhu dalam derajat Celcius, dimungkinkan untuk memprediksi Fahrenheit secara akurat. Hubungan statistik tidak akurat dalam menentukan hubungan antara dua variabel. Misalnya hubungan antara tinggi badan dan berat badan.


Lalu bagaimana contoh cara menerapkannya? Yuk simak tutorial sederhananya bersama DQLab Academy!


1. Apa itu Regresi Linear?

Sebelum mengetahui apa itu regresi linier, mari kita membiasakan diri dengan regresi. Regresi adalah metode pemodelan nilai target berdasarkan prediktor independen. Metode ini banyak digunakan untuk peramalan dan mencari tahu hubungan sebab akibat antar variabel. Teknik regresi sebagian besar berbeda berdasarkan jumlah variabel independen dan jenis hubungan antara variabel independen dan dependen. Regresi linier sederhana adalah jenis analisis regresi dimana jumlah variabel bebas adalah satu dan terdapat hubungan linier antara variabel bebas(x) dan terikat(y). Garis merah pada grafik di atas disebut sebagai garis lurus yang paling sesuai. Berdasarkan titik data yang diberikan, kami mencoba memplot garis yang memodelkan titik-titik tersebut dengan paling baik.


Baca juga : Yuk Cari Tahu Perbedaan Python R dan SQL


2. Salah satu Contoh Regresi Linear

Contoh dataset yang berisi informasi tentang hubungan antara 'jumlah jam belajar' dan 'nilai yang diperoleh'. Banyak siswa telah diamati dan jam belajar dan nilai mereka dicatat. Ini akan menjadi data pelatiha. Tujuannya adalah untuk merancang model yang dapat memprediksi nilai jika diberikan jumlah jam belajar. Dengan menggunakan data pelatihan, diperoleh garis regresi yang akan memberikan kesalahan minimum. Persamaan linier ini kemudian digunakan untuk setiap data baru. Artinya, jika kita memberikan jumlah jam belajar oleh seorang siswa sebagai masukan, model kita harus memprediksi nilai mereka dengan kesalahan minimum.


3.Kuadrat Terkecil Biasa

Ketika kita memiliki lebih dari satu input, kita dapat menggunakan Kuadrat Terkecil Biasa untuk memperkirakan nilai koefisien. Prosedur Kuadrat Terkecil Biasa berusaha meminimalkan jumlah residu kuadrat. Ini berarti bahwa dengan memberikan garis regresi melalui data, kami menghitung jarak dari setiap titik data ke garis regresi, kuadratkan, dan jumlahkan semua kesalahan kuadrat bersama-sama. Ini adalah kuantitas yang ingin diminimalkan oleh kuadrat terkecil biasa. Pendekatan ini memperlakukan data sebagai matriks dan menggunakan operasi aljabar linier untuk memperkirakan nilai optimal untuk koefisien. Ini berarti bahwa semua data harus tersedia dan sahabat data harus memiliki memori yang cukup untuk memuat data dan melakukan operasi matriks.Hal yang tidak biasa untuk menerapkan sendiri prosedur Kuadrat Terkecil Biasa kecuali sebagai latihan dalam aljabar linier. Kemungkinan besar sahabat data akan memanggil prosedur dalam pustaka aljabar linier. Prosedur ini sangat cepat untuk dihitung.


4. Penurunan Nilai Gradien

Ketika ada satu atau lebih input, sahabat data dapat menggunakan proses pengoptimalan nilai koefisien dengan meminimalkan kesalahan model pada data pelatihan sahabat data secara iteratif. Operasi ini disebut Gradient Descent dan bekerja dengan memulai dengan nilai acak untuk setiap koefisien. Jumlah kesalahan kuadrat dihitung untuk setiap pasangan nilai input dan output. Tingkat pembelajaran digunakan sebagai faktor skala dan koefisien diperbarui ke arah meminimalkan kesalahan. Proses ini diulang sampai kesalahan jumlah kuadrat minimum tercapai atau tidak ada perbaikan lebih lanjut yang mungkin. 


Saat menggunakan metode ini, sahabat data harus memilih parameter kecepatan pembelajaran (alfa) yang menentukan ukuran langkah peningkatan yang akan diambil pada setiap iterasi prosedur. Penurunan gradien sering diajarkan menggunakan model regresi linier karena relatif mudah dipahami. Dalam praktiknya, ini berguna ketika sahabat data memiliki kumpulan data yang sangat besar baik dalam jumlah baris atau jumlah kolom yang mungkin tidak muat ke dalam memori.

Baca juga : Mengenal Perbedaan R Python dan SQL


5. Belajar Coding Dasar bersama DQLab Academy

Berapa banyak dari kesalahan umum ini yang pernah sahabat data lakukan? Hal Ini bisa membuat frustasi pada awalnya, tetapi membuat kesalahan membuat kita menjadi programmer yang lebih baik, selama kita berusaha untuk mempelajarinya. Meskipun langkah pertama mungkin sulit, jangan mudah menyerah, dan terus coding yuk bersama DQLab Academy!


Sign Up & Mulai Belajar Gratis di DQLab!