Pahami hal ini dalam unsupervised learning

Belajar Data Science di Rumah 14-Februari-2021

https://dqlab.id/files/dqlab/cache/d67fd49a800d3d1cd1d8e72a669a8812_x_Thumbnail800.png

Algoritma Supervised Learning adalah tugas machine learning untuk mempelajari fungsi yang memetakan input ke output berdasarkan contoh pasangan input-output. Hal ini dapat menyimpulkan bahwa fungsi dari data pelatihan berlabel yang terdiri dari satu set contoh pelatihan.Dalam supervised learning, setiap contoh adalah pasangan yang terdiri dari objek masukan (biasanya vektor) dan nilai keluaran yang diinginkan .

Algoritma machine learning yang diawasi menganalisis data pelatihan dan menghasilkan fungsi yang disimpulkan, yang dapat digunakan untuk memetakan contoh baru. Skenario yang optimal akan memungkinkan algoritma untuk menentukan label kelas dengan benar untuk instance yang tidak terlihat. Ini membutuhkan algoritma pembelajaran untuk menggeneralisasi dari data pelatihan ke situasi yang tidak terlihat dengan cara yang "masuk akal".

1. Kompleksitas Fungsi dan Jumlah Data Training

Masalah pertama adalah jumlah data training yang tersedia relatif terhadap kompleksitas fungsi "sebenarnya" (fungsi pengklasifikasi atau regresi). Jika fungsi sebenarnya sederhana, maka algoritma pembelajaran yang "tidak fleksibel" dengan bias tinggi dan varians rendah akan dapat mempelajarinya dari sejumlah kecil data. Tetapi jika fungsi sebenarnya sangat kompleks (misalnya, karena melibatkan interaksi kompleks di antara banyak fitur masukan yang berbeda dan berperilaku berbeda di bagian ruang masukan yang berbeda), maka fungsi tersebut hanya dapat belajar dari sejumlah besar data pelatihan dan menggunakan algoritma pembelajaran "fleksibel" dengan bias rendah dan varians tinggi. Ada batasan yang jelas antara masukan dan keluaran yang diinginkan.

2. Dimensionality of the input space

Jika vektor fitur masukan memiliki dimensi yang sangat tinggi, masalah pembelajaran dapat menjadi sulit meskipun fungsi sebenarnya hanya bergantung pada sejumlah kecil fitur tersebut. Ini karena banyaknya dimensi "ekstra" dapat membingungkan algoritme pembelajaran dan menyebabkannya memiliki varian yang tinggi. Oleh karena itu, dimensi input tinggi biasanya memerlukan penyetelan pengklasifikasi agar memiliki varians rendah dan bias tinggi. Dalam praktiknya, jika insinyur dapat secara manual menghapus fitur yang tidak relevan dari data masukan, ini kemungkinan akan meningkatkan keakuratan fungsi yang dipelajari. Selain itu, ada banyak algoritma untuk pemilihan fitur yang berusaha mengidentifikasi fitur yang relevan dan membuang fitur yang tidak relevan. Ini adalah contoh dari strategi pengurangan dimensi yang lebih umum, yang berupaya memetakan data masukan ke dalam ruang dimensi yang lebih rendah sebelum menjalankan algoritme pembelajaran yang diawasi.

3. Input Nilai yang Noise

Tingkat noise dalam nilai keluaran yang diinginkan (variabel target pengawasan). Jika nilai keluaran yang diinginkan sering salah (karena kesalahan manusia atau kesalahan sensor), maka algoritma pembelajaran tidak boleh mencoba menemukan fungsi yang sama persis dengan contoh pelatihan. Mencoba menyesuaikan data terlalu hati-hati akan menyebabkan overfitting. Anda dapat melakukan overfit meskipun tidak ada kesalahan pengukuran (gangguan stokastik) jika fungsi yang Anda coba pelajari terlalu rumit untuk model pembelajaran Anda. Dalam situasi seperti itu, bagian dari fungsi target yang tidak dapat dimodelkan "merusak" data pelatihan Anda - fenomena ini disebut gangguan deterministik. Ketika salah satu jenis kebisingan muncul, lebih baik menggunakan bias yang lebih tinggi, penaksir varians yang lebih rendah.

Dalam praktiknya, ada beberapa pendekatan untuk mengurangi noise pada nilai keluaran seperti penghentian awal untuk mencegah overfitting serta mendeteksi dan menghapus contoh pelatihan yang berisik sebelum melatih algoritma pembelajaran yang diawasi. Ada beberapa algoritma yang mengidentifikasi contoh pelatihan yang berisik dan menghapus contoh pelatihan yang diduga berisik sebelum pelatihan telah mengurangi kesalahan generalisasi dengan signifikansi statistik.

4. Yuk, TEMUKAN SUMBER DATA UNTUK BANGUN PORTFOLIO GRATIS DI DQLAB SELAMA 1 BULAN!

Gunakan Kode Voucher "DQTRIAL", dan simak informasi dibawah ini mendapatkan 30 Hari FREE TRIAL:

Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Pahami hal ini dalam unsupervised learning

1. Kompleksitas Fungsi dan Jumlah Data Training

2. Dimensionality of the input space

3. Input Nilai yang Noise

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab