PROMO 7.7! DISKON 98%
Belajar Data Science Bersertifikat, 12 Bulan hanya 177K!

0 Hari 3 Jam 37 Menit 17 Detik

Model Machine Learning Hierarchical Clustering

Belajar Data Science di Rumah 11-Juni-2024
https://dqlab.id/files/dqlab/cache/longtail-selasa-07-2024-06-13-103522_x_Thumbnail800.jpg

Hierarchical clustering adalah teknik pengelompokan data dalam machine learning yang membentuk hirarki berlapis dari cluster, biasanya divisualisasikan dalam bentuk dendrogram. Metode ini berguna dalam berbagai aplikasi, seperti pengelompokan pelanggan dalam pemasaran untuk mengidentifikasi segmen pasar yang berbeda, analisis biologis seperti pengelompokan gen yang memiliki fungsi serupa, dan pengelompokan dokumen untuk mengelompokkan artikel atau laporan berdasarkan topik. 


Proses kerjanya dimulai dengan menganggap setiap data poin sebagai cluster terpisah, kemudian menggabungkan dua cluster yang paling mirip (dalam pendekatan agglomerative) atau membagi cluster besar menjadi yang lebih kecil (dalam pendekatan divisive) hingga semua data tergabung dalam satu cluster atau sesuai dengan kriteria yang diinginkan. Kemiripan antara cluster biasanya diukur dengan jarak, seperti jarak Euclidean atau jarak Manhattan.


Dendrogram yang dihasilkan mempermudah identifikasi kelompok data yang serupa dan pemahaman hubungan hirarkis antar cluster, yang bisa disesuaikan dengan memotong dendrogram pada level tertentu untuk mendapatkan jumlah cluster yang diinginkan.


Cari tahu contoh penerapan dan langkah kerjanya di sini!


1. Mengenal Hierarchical Clustering

Hierarchical clustering adalah salah satu teknik dalam machine learning (ML) yang digunakan untuk mengelompokkan data ke dalam kelompok-kelompok yang lebih kecil berdasarkan kemiripan mereka. Metode ini sering digunakan dalam analisis data eksploratori untuk menemukan struktur dalam dataset tanpa perlu supervisi (unsupervised learning).


Proses hierarchical clustering bisa dibagi menjadi dua pendekatan utama:

  • Agglomerative (Bottom-Up): Dimulai dengan setiap data sebagai satu cluster tersendiri, dan secara iteratif menggabungkan dua cluster yang paling mirip sampai semua data tergabung dalam satu cluster besar atau sampai mencapai jumlah cluster yang diinginkan.

  • Divisive (Top-Down): Dimulai dengan satu cluster yang berisi semua data, dan secara iteratif membagi cluster menjadi dua sampai setiap data menjadi satu cluster tersendiri atau sampai mencapai jumlah cluster yang diinginkan.

Pada dasarnya, metode agglomerative lebih umum digunakan karena lebih sederhana dalam implementasinya.


Baca juga : Yuk Kenali Macam-Macam Algoritma Machine Learning!


2. Fungsi Penggunaan ML Hierarchical Clustering

Hierarchical clustering memiliki berbagai fungsi dan aplikasi dalam analisis data. Beberapa kegunaan utamanya meliputi:

  • Analisis segmentasi pasar: Hierarchical clustering dapat digunakan untuk segmentasi pasar dengan mengelompokkan konsumen berdasarkan perilaku pembelian atau karakteristik demografis mereka. Ini membantu perusahaan dalam menargetkan marketing campaign dengan lebih efektif.

  • Pengelompokan dokumen: Dalam pemrosesan teks, teknik ini dapat digunakan untuk mengelompokkan dokumen yang memiliki tema atau topik yang sama. Ini sangat berguna untuk aplikasi seperti rekomendasi konten dan pencarian informasi.

  • Identifikasi pola dalam data genomik: Hierarchical clustering sering digunakan dalam bioinformatika untuk mengidentifikasi pola dalam data genomik, seperti pengelompokan gen atau sampel berdasarkan ekspresi gen.

  • Deteksi anomali: Metode ini juga berguna untuk mendeteksi anomali dalam dataset, seperti mendeteksi transaksi yang mencurigakan dalam data keuangan.


3. Contoh Penerapan ML Hierarchical Clustering

Sebuah supermarket ingin mengelompokkan pelanggan mereka berdasarkan kebiasaan belanja untuk meningkatkan strategi pemasaran. Data yang digunakan mencakup informasi seperti frekuensi belanja, jumlah uang yang dibelanjakan, dan jenis produk yang sering dibeli. Berikut langkah-langkah penerapannya.

  • Pengumpulan Data: Mengumpulkan data pelanggan dari sistem point-of-sale (POS).

  • Praproses Data: Membersihkan data dengan menghapus outlier dan menangani nilai yang hilang.

  • Pemilihan Fitur: Memilih fitur-fitur yang relevan, seperti frekuensi belanja, jumlah uang yang dibelanjakan, dll.

  • Pembentukan Dendrogram: Menggunakan metode agglomerative untuk membentuk dendrogram dan menentukan jumlah cluster yang optimal.

  • Interpretasi Hasil: Menganalisis cluster yang terbentuk untuk mengidentifikasi pola dan membuat segmentasi pelanggan yang dapat digunakan untuk strategi pemasaran.


Baca juga : Bootcamp Machine Learning and AI for Beginner


4. Macam-macam Unsupervised ML Lainnya

Selain hierarchical clustering, ada beberapa metode unsupervised learning lainnya yang sering digunakan dalam analisis data, antara lain:

  • K-Means clustering: Metode ini mengelompokkan data ke dalam k cluster berdasarkan jarak rata-rata. K-Means adalah salah satu algoritma clustering yang paling sederhana dan paling umum digunakan.

  • DBSCAN: Algoritma ini mengelompokkan data berdasarkan kepadatan titik data, yang sangat efektif dalam menangani cluster dengan bentuk yang tidak beraturan dan dapat mengidentifikasi outlier sebagai noise.

  • Gaussian mixture models: GMM menganggap bahwa data berasal dari beberapa distribusi Gaussian yang berbeda dan mencoba untuk menemukan parameter dari distribusi-distribusi ini untuk mengelompokkan data.

  • Principal component analysis: Meskipun bukan metode clustering, PCA adalah teknik reduksi dimensi yang sering digunakan untuk mengekstrak fitur penting dari data, yang kemudian bisa digunakan untuk clustering dengan metode lainnya.


Pada machine learning, banyak sekali model dan algoritma yang digunakan. Hierarchical clustering hanyalah salah satunya. Tapi dimana ya bisa belajar semua materi tersebut? DQLab solusinya. Modul ajarnya lengkap dan bervariasi. Semua skill yang dibutuhkan akan diajarkan.


Dilengkapi studi kasus yang membantu kalian belajar memecahkan masalah dari berbagai industri. Bahkan diintegrasikan dengan ChatGPT. Manfaatnya apa?

  • Membantu kalian menjelaskan lebih detail code yang sedang dipelajari

  • Membantu menemukan code yang salah atau tidak sesuai

  • Memberikan solusi atas problem yang dihadapi pada code

  • Membantu kalian belajar kapanpun dan dimanapun


Selain itu, DQLab juga menggunakan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Tunggu apa lagi, segera Sign Up dan persiapkan diri untuk menguasai machine learning atau ikuti Bootcamp Machine Learning and AI for Beginner

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login