Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Yuk Kenali Tipe-Tipe Clustering dalam Algoritma Unsupervised Learning!

Belajar Data Science 17-Januari-2021
https://dqlab.id/files/dqlab/cache/6dec8918ce11edc38a632a0bf8106a0b_x_Thumbnail800.jpg

Algoritma unsupervised learning bekerja dengan cara menyimpulkan pola dari kumpulan data tanpa mengacu pada hasil yang diketahui atau diberi label. Tidak seperti algoritma supervised learning, metode unsupervised learning tidak dapat diterapkan langsung ke masalah regresi atau klasifikasi karena kita tidak tahu nilai target outputnya sehingga kita tidak dapat melatih algoritma ini.  Namun, algoritma unsupervised learning dapat digunakan untuk menemukan struktur yang mendasari data. Tujuan algoritma unsupervised learning adalah untuk menemukan pola yang sebelumnya tidak diketahui dalam data, tetapi sebagian besar pola ini hanya perkiraan. Selain itu, karena kita tidak tahu seperti apa hasil akhir yang sebenarnya, maka kita tidak dapat menentukan seberapa akurat nilai yang dihasilkan. Algoritma unsupervised learning digunakan ketika kita tidak memiliki data mengenai hasil akhir yang diinginkan, seperti menentukan target pasar untuk produk yang belum pernah dijual sama sekali.

Salah satu contoh algoritma unsupervised learning yang banyak digunakan adalah clustering. Clustering merupakan metode pengelompokan yang secara otomatis membagi kumpulan data menjadi beberapa kelompok sesuai kesamaan. Dalam algoritma unsupervised learning, ada banyak tipe clustering dengan fungsi dan tujuan yang berbeda. Pada artikel kali ini, DQLab akan menjelaskan apa saja tipe-tipe clustering pada algoritma unsupervised learning. Jadi, tunggu apa lagi? Yuk, simak artikel ini sampai selesai!

1. Hierarchical Clustering, K-Means Clustering, dan K-NN

Hierarchical clustering adalah metode pengelompokan dengan menggabungkan dua cluster terdekat. Algoritma clustering ini akan berakhir ketika hanya ada satu cluster yang tersisa. Pada algoritma K-Means Clustering, K adalah algoritma pengelompokan iteratif yang akan kita gunakan untuk menemukan nilai tertinggi untuk setiap iterasi. Dalam metode ini, kita akan mengelompokkan titik-titik data ke dalam k kelompok. Setiap kelompok ditentukan dengan membuat centroid (pusat cluster) dan menghubungkan titik-titik terdekat dengan centroid menjadi satu cluster. K-Means Clustering dibagi menjadi dua yaitu clustering agglomerative dan dendogram. Agglomerative clustering merupakan algoritma K-Means Clustering yang dimulai dengan jumlah cluster yang tetap. Algoritma ini menempatkan data ke dalam jumlah cluster yang tepat. Proses aglomerasi dimulai dengan membentuk setiap data sebagai satu cluster. Algoritma ini menggunakan beberapa metode pengukuran jarak, mengurangi satu cluster pada setiap iterasi dengan menggabungkan cluster tersebut dengan cluster lainnya. Dalam metode clustering dendrogram, setiap level akan mewakili setiap cluster. Ketinggian dendrogram menunjukkan tingkat kemiripan antara dua cluster yang bergabung. K-NN atau K Nearest Neighbor adalah algoritma yang paling sederhana. Algoritma ini sedikit berbeda dibandingkan algoritma machine learning yang lain karena tidak menghasilkan model. Algoritma ini adalah algoritma sederhana yang menyimpan semua data dan mengklasifikasikan data tersebut berdasarkan kesamaan.

Baca juga : 3 Jenis Algoritma Machine Learning yang Dapat Digunakan di Dunia Perbankan

2. Principal Component Analysis, Singular Value Decomposition, dan Independent Component Analysis

Principal Component Analysis atau biasa disingkat dengan PCA adalah metode reduksi dimensi yang sering digunakan untuk mereduksi dimensi kumpulan big data dengan mengubah sekumpulan variabel menjadi lebih kecil dan masih berisi sebagian besar informasi yang ada di big data tersebut. Hal ini karena kumpulan data yang lebih kecil akan lebih mudah dieksplor dan divisualisasikan serta membuat analisis menjadi lebih mudah dan lebih cepat. Secara sederhana, PCA akan mengurangi jumlah variabel dari kumpulan data namun tetap mempertahankan informasi sebanyak mungkin. 

Singular Value Decomposition atau lebih dikenal dengan SVD merupakan teknik yang paling banyak digunakan dalam ilmu atmosfer. Teknik ini pertama kali ditemukan oleh meteorologi dalam makalah tahun 1956 oleh Edward Lorenz. Dalam ilmu atmosfer dan geofisika, data seringkali menunjukkan korelasi spasial yang besar. Analisis SVD akan menghasilkan representasi yang lebih baik, terutama dengan kumpulan data multivariat dan dapat memberikan informasi mengenai variasi spasial dan temporal.

Independent Component Analysis (ICA) merupakan teknik unsupervised learning untuk mengungkap faktor tersembunyi yang mendasari kumpulan variabel dan pengukuran melalui sebuah model generatif. Dalam model ini, variabel data diasumsikan sebagai campuran linier dari beberapa variabel laten yang tidak diketahui. Variabel laten diasumsikan non-gaussian dan saling independen. Komponen independen ini disebut sumber atau faktor. Data yang digunakan dapat berasal dari berbagai jenis bidang termasuk gambar digital, database dokumen, indikator ekonomi, dan pengukuran psikometri. 

3. Pengaplikasian dan Kekurangan Algoritma Unsupervised Learning

Algoritma unsupervised learning dapat digunakan untuk mengelompokkan kumpulan data menjadi beberapa kelompok berdasarkan kemiripan, deteksi anomali dengan menemukan titik data yang tidak biasa dalam data set, membangun model variabel laten yang banyak digunakan untuk preprocessing data, dan lain sebagainya. 

Selain memiliki beberapa metode yang powerful, algoritma unsupervised learning juga memiliki beberapa kelemahan antara lain, algoritma ini tidak bisa mendapatkan informasi yang tepat mengenai pengurutan data, kurang akuratnya hasil karena data input tidak diketahui dan tidak diberi label, interval yang terkadang tidak sesuai, dan membutuhkan lebih banyak waktu karena harus memberi label output terlebih dahulu.

Ketika berbicara mengenai machine learning, maka kita tidak akan terlepas dari deep learning, artificial intelligence, dan data science karena keempat istilah ini saling berkaitan. Di era serba data seperti saat ini, berbagai industri sangat membutuhkan insight dari data. Namun, untuk memperoleh insight tersebut, perlu ada pengolahan khusus yang tidak bisa dilakukan oleh sembarang orang. Kegiatan ini merupakan salah satu jobdesk dari seorang data scientist. Di era industri 4.0, data science sangat dibutuhkan di semua aspek dan lini industri. Oleh karena itu, tak heran jika profesi data scientist tergolong ke dalam profesi dengan salary tinggi. Fakta unik dari data scientist adalah ilmu ini bisa dipelajari oleh siapapun dengan latar belakang pendidikan apapun.

Baca juga : Belajar Data Science: Pahami Penggunaan Machine Learning pada Python

4. Yuk, Mulai Belajar Data Science bersama DQLab secara GRATIS!

Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industi! Sign up sekarang untuk #MulaiBelajarData di DQLab!

Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

  4. Subscribe DQLab.id untuk Akses Semua Module Premium!

Penulis: Galuh Nurvinda Kurniawati

Editor: Annissa Widya Davita



Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login