Jenis Data Algoritma untuk Data Statistik yang Wajib Pemula Ketahui

Belajar Data Science di Rumah 19-November-2021

https://dqlab.id/files/dqlab/cache/4ac58d97b2a99709a0d14d1486aa10f6_x_Thumbnail800.png

Pembelajaran mesin atau Machine Learning adalah topik hangat dalam penelitian dan industri, dengan metodologi baru yang dikembangkan setiap saat. Kecepatan dan kompleksitas bidang membuat mengikuti teknik baru menjadi sulit bahkan bagi para ahli ” dan berpotensi berlebihan bagi pemula. Untuk mengungkap pembelajaran mesin dan menawarkan jalur pembelajaran bagi mereka yang baru mengenal konsep inti, mari kita lihat sepuluh metode berbeda, termasuk deskripsi sederhana, visualisasi, dan contoh untuk masing-masing metode. œPembelajaran dalam pembelajaran mesin mengacu pada proses di mana mesin meninjau data yang ada dan mempelajari keterampilan dan pengetahuan baru dari data tersebut. Sistem pembelajaran mesin menggunakan algoritma untuk menemukan pola dalam kumpulan data, yang mungkin mencakup data terstruktur, data tekstual tidak terstruktur, data numerik, atau bahkan media kaya seperti file audio, gambar, dan video. Algoritma pembelajaran mesin membutuhkan komputasi intensif, membutuhkan infrastruktur khusus untuk berjalan dalam skala besar.

Algoritma pembelajaran mesin, juga disebut model, adalah ekspresi matematika yang mewakili data dalam konteks masalah, seringkali masalah bisnis. Tujuannya adalah untuk beralih dari data ke wawasan. Misalnya, jika pengecer online ingin mengantisipasi penjualan untuk kuartal berikutnya, mereka mungkin menggunakan algoritme pembelajaran mesin yang memprediksi penjualan tersebut berdasarkan penjualan sebelumnya dan data relevan lainnya. Demikian pula, produsen kincir angin mungkin secara visual memantau peralatan penting dan memasukkan data video melalui algoritma yang dilatih untuk mengidentifikasi retakan berbahaya.

Yuk simak beberapa tipe algoritma machine learning!

1. Regresi

Metode regresi termasuk dalam kategori ML yang diawasi. Mereka membantu memprediksi atau menjelaskan nilai numerik tertentu berdasarkan kumpulan data sebelumnya, misalnya memprediksi harga properti berdasarkan data harga sebelumnya untuk properti serupa. Metode paling sederhana adalah regresi linier di mana kita menggunakan persamaan matematis garis (y = m * x + b) untuk memodelkan kumpulan data. Kami melatih model regresi linier dengan banyak pasangan data (x, y) dengan menghitung posisi dan kemiringan garis yang meminimalkan total jarak antara semua titik data dan garis. Dengan kata lain, kita menghitung kemiringan (m) dan perpotongan y (b) untuk garis yang paling mendekati pengamatan dalam data.

2. Klasifikasi

Kelas lain dari ML yang diawasi, metode klasifikasi memprediksi atau menjelaskan nilai kelas. Misalnya, mereka dapat membantu memprediksi apakah pelanggan online akan membeli produk atau tidak. Outputnya bisa ya atau tidak: pembeli atau bukan pembeli. Tetapi metode klasifikasi tidak terbatas pada dua kelas. Misalnya, metode klasifikasi dapat membantu menilai apakah gambar yang diberikan berisi mobil atau truk. Dalam hal ini, output akan menjadi 3 nilai yang berbeda: 1) gambar berisi mobil, 2) gambar berisi truk, atau 3) gambar tidak berisi mobil atau truk.

Algoritma klasifikasi paling sederhana adalah regresi logistik ” yang membuatnya terdengar seperti metode regresi, tetapi sebenarnya tidak. Regresi logistik memperkirakan kemungkinan terjadinya suatu peristiwa berdasarkan satu atau lebih input.

Misalnya, regresi logistik dapat mengambil input dua nilai ujian untuk seorang siswa untuk memperkirakan probabilitas bahwa siswa akan diterima di perguruan tinggi tertentu. Karena perkiraan adalah probabilitas, outputnya adalah angka antara 0 dan 1, di mana 1 mewakili kepastian yang lengkap. Untuk siswa, jika probabilitas yang diperkirakan lebih besar dari 0,5, maka kami memprediksi bahwa dia akan diterima. Jika probabilitas yang diperkirakan kurang dari 0,5, kami memperkirakan dia akan ditolak.

Bagan di bawah ini memplot skor siswa sebelumnya bersama dengan apakah mereka diterima. Regresi logistik memungkinkan kita untuk menarik garis yang mewakili batas keputusan.

3. Klaster

Dengan metode clustering, kita masuk ke dalam kategori unsupervised ML karena tujuannya adalah untuk mengelompokkan atau mengelompokkan observasi yang memiliki karakteristik serupa. Metode pengelompokan tidak menggunakan informasi keluaran untuk pelatihan, tetapi membiarkan algoritma menentukan keluaran. Dalam metode pengelompokan, kami hanya dapat menggunakan visualisasi untuk memeriksa kualitas solusi. Algoritma clustering adalah metode pembelajaran tanpa pengawasan. Beberapa algoritma pengelompokan yang umum adalah K-means, mean-shift, dan ekspektasi-maksimisasi. Mereka mengelompokkan titik data menurut karakteristik yang serupa atau bersama.

Teknik pengelompokan atau pengelompokan sangat berguna dalam aplikasi bisnis ketika ada kebutuhan untuk mengelompokkan atau mengkategorikan volume data yang besar. Contohnya termasuk mengelompokkan pelanggan berdasarkan karakteristik yang berbeda untuk menargetkan kampanye pemasaran yang lebih baik, dan merekomendasikan artikel berita yang akan disukai pembaca tertentu. Pengelompokan juga efektif dalam menemukan pola dalam kumpulan data kompleks yang mungkin tidak terlihat oleh mata manusia.

4. Pengurangan Dimensi

Seperti namanya, kami menggunakan pengurangan dimensi untuk menghapus informasi yang paling tidak penting (kadang-kadang kolom yang berlebihan) dari kumpulan data. Dalam praktiknya, saya sering melihat kumpulan data dengan ratusan atau bahkan ribuan kolom (juga disebut fitur), jadi mengurangi jumlah total sangat penting. Misalnya, gambar dapat mencakup ribuan piksel, tidak semuanya penting untuk analisis Anda. Atau saat menguji microchip dalam proses manufaktur, Anda mungkin memiliki ribuan pengukuran dan pengujian yang diterapkan pada setiap chip, banyak di antaranya memberikan informasi yang berlebihan. Dalam kasus ini, Anda memerlukan algoritme pengurangan dimensi untuk membuat kumpulan data dapat dikelola.

Metode reduksi dimensi yang paling populer adalah Principal Component Analysis (PCA), yang mengurangi dimensi ruang fitur dengan mencari vektor baru yang memaksimalkan variasi linier data. PCA dapat mengurangi dimensi data secara dramatis dan tanpa kehilangan terlalu banyak informasi ketika korelasi linier data kuat. (Dan sebenarnya Anda juga dapat mengukur tingkat kehilangan informasi yang sebenarnya dan menyesuaikannya.)

5. Belajar Data ASIK bareng DQLab Academy!

Salah satu cabang ilmu yang mendukung adanya data analyst adalah keilmuan data dan statistik. Banyak sekali teori teori statistik yang digunakan oleh data analyst dalam mengolah data. Mau tau apa saja? Yuk pahami dan terjun langsung dengan data real industri bersama DQLab Academy! Belajar Statistik dan Data Science anti ribet dengan fitur live code editor!

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.