Mengenal Algoritma Data Science Untuk Menjawab Kebutuhan Data Scientist

Belajar Data Science di Rumah 05-Agustus-2021

https://dqlab.id/files/dqlab/cache/a8a70849fd57cac97009f54566bb805f_x_Thumbnail800.jpg

Algoritma Data Science merupakan harta karun yang banyak dicari-cari saat ini. Bisa dibilang, ilmu ini sama mahalnya dengan sebongkah emas. Namun, untuk mengubah sebuah data yang berukuran besar dan tidak terstruktur, membutuhkan proses pengolahan sehingga data tersebut menghasilkan informasi yang berguna bagi sebuah organisasi dan bisnis. Dalam dunia Data Science terdapat banyak jenis algoritma populer seperti Unsupervised Learning, Supervised Learning, dan Semi-Supervised Learning. Algoritma-algoritma ini penting untuk dipelajari agar kita tahu harus menggunakan model Data Science seperti apa agar menghasilkan output yang sesuai.

Algoritma Data Science merupakan metode atau prosedur yang digunakan dalam mengolah Data Science. Data Science sendiri adalah ilmu yang dibangun berdasarkan disiplin ilmu matematika, statistik, dan komputer. Ilmu yang sedang populer ini berguna bagi perusahaan dalam pengambilan keputusan untuk strategi bisnis lanjutan. Sehingga banyak industri maupun instansi mulai mempelajari algoritma Data Science dan menerapkannya.

Sebuah data dapat diklasifikasikan berdasarkan beberapa kriteria. Diantaranya berdasarkan pada informasi lokasi/waktu, bentuknya (graph/struktur), dan berdasarkan klasifikasi tertentu Pastinya terlalu banyak algoritma yang harus dibahas jika semua tipe tersebut disebutkan. Pada artikel kali ini, DQLab akan memfokuskan pembahasan dasar pada algoritma Data Science berdasarkan tipe variabel dan jenis datanya. Apa saja macam algoritma Data Science? Simak dibawah ini, Yuk!

1. Clustering Analysis (Unsupervised Learning)

Salah satu jenis algoritma pada Machine Learning adalah Unsupervised Learning. Seperti yang pernah dibahas di artikel lainnya, Machine Learning tanpa data maka tidak akan bisa bekerja. Oleh sebab itu, hal yang pertama kali perlu disiapkan adalah data. Unsupervised learning adalah salah satu tipe algoritma Data Science yang digunakan untuk menarik kesimpulan dari dataset. Metode ini hanya akan mempelajari suatu data berdasarkan kedekatannya saja atau yang biasa disebut dengan Clustering.

Salah satu contoh implementasi Unsupervised Learning adalah Clustering Analysis. Tujuan dari clustering ini adalah untuk mengelompokkan data sedemikian sehingga objek-objek pada suatu cluster itu serupa dan objek antar cluster berbeda. Dengan teknologi clustering, sebuah perusahaan dapat mengidentifikasi customer segmen yang berpotensial untuk menjual produk mereka. Perusahaan dapat mengidentifikasi customer segmen yang paling mungkin menggunakan layanan atau membeli produk mereka. Perusahaan juga dapat mengevaluasi segmen pelanggan lalu memutuskan untuk menjual produk guna memaksimalkan keuntungan mereka.

Clustering Analysis atau analisis cluster ini merupakan metode pengelompokan statistik yang digunakan untuk menganalisis sejumlah besar data. Tahapan pertama yang perlu dilakukan adalah mendefinisikan objek studi individu sebagai satu cluster. Lalu langkah selanjutnya, berbagai cluster dengan nilai similarity tertinggi digabungkan untuk membentuk sebuah cluster yang lebih besar. Setelah itu dilakukan analisis yang melibatkan jarak antara kelompok individu untuk membuat kelompok yang lebih besar lagi sehingga hasil akhirnya akan menghasilkan sekelompok cluster yang besar.

Contoh penerapan Clustering Analysis yaitu ketika seorang Data Analyst ingin mengelompokkan client dari salah satu provider hosting di Indonesia berdasarkan kemiripan sifat dalam hal pendapatan umur, hobi, dan jenis pekerjaannya. Maka untuk mengelompokkan customer berdasarkan kemiripan sifat, Machine Learning tidak memerlukan data training. Melainkan menggunakan data yang ada langsung bisa mengelompokkan customer-customer tersebut.

2. Classification Models (Supervised Learning)

Algoritma Supervised Learning merupakan jenis algoritma yang tidak bisa belajar sendiri tetapi harus diberi contoh terlebih dahulu dengan cara memberi label pada dataset yang kita punya. Memberi label disini artinya adalah dataset kita telah diberikan nilai kebenarannya yang akan dijadikan sebagai nilai target atau nilai acuan. Supervised Learning dapat membantu suatu organisasi dalam memecahkan berbagai masalah real yang dalam skala besar, seperti mengklasifikasikan spam dalam folder terpisah di kotak masuk email kamu.

Algoritma Supervised Learning dibagi menjadi 3 model yaitu, model Classification, Regression, dan Forecasting. Salah satunya yaitu Classification Models. Klasifikasi merupakan model solusi dari permasalahan mengkategorisasikan sekelompok observasi baru ke sekumpulan kategori (kelas) yang ada sebelumnya. Terdapat cukup banyak model klasifikasi yang dapat digunakan, mulai dari yang klasik seperti Linear Discriminant Analysis (LDA) dan regresi logistik, lalu ke moderate seperti SVM (Support Vector Machines), Decision Tree dan Neural Network (jaringan syaraf tiruan), sampai yang lebih terkini seperti Random Forest, XGboost dan Deep Learning. Pastinya diantara banyak model klasifikasi tersebut memiliki kelebihan dan kekurangannya masing-masing.

Contoh penerapan classification ini dapat diimplementasikan ketika ingin memprediksi suatu hal yang hasilnya dalam bentuk data kategorik. Tidak ada aturan tertentu yang mensyaratkan kapan kita menggunakan algoritma tertentu untuk case data tertentu, yang jelas ketika kita menjumpai business case bertipe classification task, maka alangkah baiknya kita coba beberapa alternatif algoritma classification tersebut agar mendapatkan performansi prediksi yang lebih baik.

3. Semi-Supervised Learning

Ada kalanya ketika data yang kita punya memiliki variabel target dan prediktor, namun terdapat data yang hilang (missing values) di beberapa observasi di variabel targetnya. Atau misalkan pada kasus lain, kita ingin melakukan clustering, namun dengan suatu kendala atau batasan tertentu kita menginginkan clustering yang sesuai dengan suatu informasi awal yang kita miliki. Pada kasus-kasus seperti ini Semi-Supervised Learning digunakan. Berikut salah satu contoh yang cukup terkenal dari penelitian Tung et al (2000), ketika melakukan Clustering Analysis mesin-mesin ATM bank di suatu kota. namu di kota tersebut terdapat beberapa hambatan (contoh: sungai), sehingga clustering memiliki solusi yaitu menghitung jarak melewati hambatan atau sungai tadi. Dengan Constrained Clustering ini kita bisa mendapatkan hasil clustering yang feasible atau layak.

Namun Semi-Supervised Clustering bisa menjadi solusi clustering yang tidak hanya feasible, tapi juga sesuai dengan yang diinginkan/diharapkan. Semi-Supervised Clustering dapat dilakukan dengan menggunakan label, fungsi jarak tertentu, constraint, hybrid, dan pemilihan parameter cluster lainnya.

4. Reinforcement Learning

Reinforcement Learning merupakan salah satu tipe Machine Learning yang cukup berbeda dengan tida algoritma di atas. Pada algoritma ini, komputer akan dibuat mampu untuk belajar sendiri dari lingkungan yang ada dari sebuah agent (entitas yang diasumsikan melakukan action di lingkungan tertentu). Sehingga kita tidak perlu lagi melakukan proses training yang berbeda. Atau singkatnya, Reinforcement Learning ini membuat software dapat melakukan action tertentu berdasarkan hasil belajarnya dari lingkungan. Tipe Machine Learning ini termasuk ke bagian Deep Learning.

Algoritma Reinforcement Learning memiliki dua jenis yaitu positif dan negatif. Reinforcement learning positif didefinisikan sebagai peristiwa yang akan terjadi karena perilaku tertentu. Algoritma ini akan meningkatkan kekuatan dan frekuensi yang akan berdampak positif pada tindakan yang akan diambil oleh agent. Algoritma Reinforcement Learning positif ini akan membantu memaksimalkan kinerja dan mempertahankan perubahan waktu. Namun, terlalu banyak Reinforcement juga dapat menyebabkan pengoptimalan state yang berlebih sehingga dapat mempengaruhi hasil. Tipe algoritma Reinforcement yang kedua adalah algoritma Reinforcement negatif. Algoritma ini diartikan sebagai penguatan perilaku yang terjadi karena adanya kondisi negatif yang seharusnya dihentikan atau dihindari. Algoritma tipe ini membantu kita untuk menentukan standar kerja minimum.

5. Mulai Langkahmu dengan Belajar Data Science Bersama DQLab!

Setelah memahami semua poin di atas, langkah berikutnya adalah memulai belajar Data Science. Jika kamu tidak memiliki background di bidang IT, kamu tidak perlu khawatir karena kamu tetap bisa belajar Data Science otodidak dari rumah. Nikmati pengalaman belajar Data Science yang menarik bersama DQLab dan buat akun di DQLab.id. Dapatkan keuntungan FREE module "Introduction to Data Science with R" dan "Introduction to Data Science with Python" untuk menguji kemampuan Data Science kamu sekarang juga!

Penulis : Salsabila Miftah Rezkia

Editor : Annissa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.