Kenali t-distributed Stochastic Neighbor Estimated (t-SNE)
Menjadi seorang data scientist, machine learning engineer, maupun machine learning specialist, kemampuan untuk merancang model machine learning saja tidak cukup. Keterampilan lain seperti mengaplikasikan metode statistik juga menjadi pondasi utama dalam membangun model machine learning yang akurat, presisi, dan terukur.
Sejatinya ada banyak jenis algoritma yang digunakan dalam membuat model machine learning. Mulai dari algoritma supervised learning, unsupervised learning, reinforcement learning, hingga deep learning. Namun, kali ini kita akan mengerucutkan ke salah satu jenis algoritma machine learning yaitu t-distributed Stochastic Neighbor Estimated (t-SNE).
t-distributed Stochastic Neighbor Embedding (t-SNE) merupakan algoritma unsupervised learning yang digunakan untuk mereduksi dimensi data. Tujuan utamanya adalah memvisualisasikan data tinggi dimensi ke dalam ruang yang lebih rendah dimensi, sehingga dapat dengan mudah dipahami dan diinterpretasikan.
Algoritma ini sering digunakan dalam eksplorasi data dan analisis visual, terutama ketika ingin memahami pola atau struktur yang tersembunyi dalam dataset kompleks. Pada artikel kali ini, kita akan membahas tentang t-distributed Stochastic Neighbor Embedding (t-SNE) yang digunakan sebagai bahan dalam membuat model machine learning. Simak yuk sahabat DQLab!
1. Apa itu t-distributed Stochastic Neighbor Embedding (t-SNE)
t-Distributed Stochastic Neighbor Embedding (t-SNE) adalah sebuah algoritma dalam machine learning yang digunakan untuk mereduksi dimensi data. Algoritma ini dikembangkan oleh Laurens van der Maaten dan Geoffrey Hinton pada tahun 2008. t-SNE bertujuan untuk memetakan data dari dimensi tinggi ke dimensi yang lebih rendah, biasanya dua dimensi, sehingga dapat divisualisasikan dengan mudah.
Sumber Gambar: ResearchGate
Secara khusus, t-SNE bekerja dengan cara mengukur kemiripan antar-objek dalam ruang asli (dimensi tinggi) dan mencoba mempertahankan kemiripan tersebut dalam ruang yang lebih rendah. Algoritma ini menggunakan distribusi t-student (t-distribution) untuk mengukur probabilitas kemiripan antar-objek, dan secara iteratif mengoptimalkan posisi objek dalam ruang rendah dimensi untuk mencocokkan probabilitas kemiripan tersebut sebaik mungkin.
Baca juga : Yuk Kenali Macam-Macam Algoritma Machine Learning!
2. Perbedaan t-SNE dengan PCA dalam Dimensionality Reduction
t-SNE (t-Distributed Stochastic Neighbor Embedding) dan PCA (Principal Component Analysis) adalah dua metode populer dalam konsep reduksi dimensi, tetapi mereka beroperasi dengan prinsip yang berbeda dan cocok untuk tujuan yang berbeda.
Prinsip Dasar:
PCA berusaha untuk mengidentifikasi arah atau komponen utama variabilitas dalam data. Komponen utama ini dipilih berdasarkan seberapa besar variansnya. Sedangkan t-SNE fokus pada mempertahankan kemiripan jarak antar-objek dalam dimensi tinggi ke dalam dimensi rendah. Itu berusaha memetakan objek yang serupa secara lokal satu sama lain dalam ruang dimensi yang lebih rendah.
Global vs. Local Relationships:
PCA berfokus pada struktur global dan mempertahankan variabilitas keseluruhan dataset. Ini dapat kurang efektif dalam menggambarkan pola lokal atau hubungan non-linear. Sedangkan, t-SNE lebih baik untuk mengekspresikan struktur lokal dan mencoba mempertahankan jarak relatif antar-objek secara lokal, sehingga lebih cocok untuk menangkap pola yang kompleks dan non-linear.
Kepekaan Terhadap Outliers:
PCA dapat sensitif terhadap outliers karena berusaha mempertahankan variabilitas global. Sementara t-SNE cenderung lebih tahan terhadap pengaruh outliers karena lebih fokus pada hubungan lokal dan probabilitas kemiripan.
3. Alasan Penggunaan t-SNE
Penggunaan t-SNE (t-Distributed Stochastic Neighbor Embedding) dapat didorong oleh beberapa alasan utama, terutama dalam konteks reduksi dimensi dan visualisasi data yang kompleks:
Pemahaman Visual yang Lebih Baik:
t-SNE membantu mengubah data tinggi dimensi menjadi representasi visual di ruang dua atau tiga dimensi. Ini memungkinkan manusia untuk memahami dan menginterpretasikan struktur data dengan lebih baik karena manusia lebih mudah memproses informasi visual dalam dimensi yang lebih rendah.
Penemuan Pola Lokal dan Non-linear:
t-SNE cenderung lebih baik dalam menangkap struktur data yang bersifat lokal dan nonlinear, yang mungkin tidak terungkap dengan baik oleh metode reduksi dimensi linear seperti PCA. Ini berguna ketika pola dalam data memiliki kompleksitas yang tinggi.
Kemampuan Menanggulangi Efek Ruang Dimensi Tinggi:
Pada dataset dengan banyak fitur atau dimensi tinggi, t-SNE membantu mengatasi "masalah kutub ganda" yang dapat terjadi dalam reduksi dimensi, di mana jarak antar-objek bisa menjadi tidak bermakna. t-SNE cenderung mempertahankan jarak yang lebih baik dalam representasi rendah dimensi.
Kemampuan Menangkap Hubungan Non-linear:
t-SNE dirancang untuk menangkap hubungan non-linear antar-objek, yang memungkinkan penangkapan informasi yang lebih halus dan kompleks dalam data yang tidak dapat diatasi oleh metode linear.
Baca juga : Bootcamp Machine Learning and AI for Beginner
4. Contoh t-SNE dalam Kehidupan Sehari-Hari
Salah satu kegunaan utama t-SNE adalah untuk memvisualisasikan data yang kompleks dan memberikan wawasan intuitif tentang pola atau struktur yang mungkin sulit ditemukan dalam dimensi yang lebih tinggi. t-SNE sering digunakan dalam eksplorasi data, analisis visual, dan pemahaman struktur data untuk berbagai aplikasi seperti pengolahan citra, analisis teks, dan biologi komputasional.
Sumber Gambar: ResearchGate
Penting untuk diingat bahwa t-SNE adalah algoritma unsupervised learning, yang berarti bahwa itu bekerja tanpa menggunakan label atau informasi kelas pada data. Hal ini membuatnya cocok untuk eksplorasi data dan analisis visual, tetapi tidak digunakan untuk tugas klasifikasi atau prediksi.
Ternyata pada machine learning ada banyak sekali model dan algoritma yang digunakan. Salah satunya adalah t-SNE. Dimana ya bisa belajar semua materi tersebut? Tenang, DQLab solusinya. Modul ajarnya lengkap dan bervariasi. Semua skill yang dibutuhkan akan diajarkan. Dilengkapi studi kasus yang membantu kalian belajar memecahkan masalah dari berbagai industri.
Bahkan diintegrasikan dengan ChatGPT. Manfaatnya apa?
Membantu kalian menjelaskan lebih detail code yang sedang dipelajari
Membantu menemukan code yang salah atau tidak sesuai
Memberikan solusi atas problem yang dihadapi pada code
Membantu kalian belajar kapanpun dan dimanapun
Selain itu, DQLab juga menggunakan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Tunggu apa lagi, segera Sign Up dan persiapkan diri untuk menguasai machine learning dengan ikuti DQLab LiveClass Bootcamp Machine Learning and AI for Beginner!
Penulis: Reyvan Maulid