Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Algoritma Data Science: Belajar Mengenal Tipe Algoritma Data Science Bersama DQLab

Belajar Data Science di Rumah 21-Mei-2021
https://dqlab.id/files/dqlab/cache/f7aabab1ff358c54dfd87e54c96d8a98_x_Thumbnail800.jpg

Algoritma Data Science merupakan harta karun yang banyak dicari-cari saat ini. Bisa dibilang, ilmu ini sama mahalnya dengan sebongkah emas. Namun, untuk mengubah sebuah data yang berukuran besar dan tidak terstruktur, membutuhkan proses pengolahan sehingga data tersebut menghasilkan informasi yang berguna bagi sebuah organisasi dan bisnis. Dalam dunia Data Science terdapat banyak jenis algoritma populer seperti Unsupervised Learning, Supervised Learning, dan Semi-Supervised Learning. Algoritma-algoritma ini penting untuk dipelajari agar kita tahu harus menggunakan model Data Science seperti apa agar menghasilkan output yang sesuai.


Algoritma Data Science merupakan metode atau prosedur yang digunakan dalam mengolah Data Science. Data Science sendiri adalah ilmu yang dibangun berdasarkan disiplin ilmu matematika, statistik, dan komputer. Ilmu yang sedang populer ini berguna bagi perusahaan dalam pengambilan keputusan untuk strategi bisnis lanjutan. Sehingga banyak industri maupun instansi mulai mempelajari algoritma Data Science dan menerapkannya.

 

Sebuah data dapat diklasifikasikan berdasarkan beberapa kriteria. Diantaranya berdasarkan pada informasi lokasi/waktu, bentuknya (graph/struktur), dan berdasarkan klasifikasi tertentu Pastinya terlalu banyak algoritma yang harus dibahas jika semua tipe tersebut disebutkan. Pada artikel kali ini, DQLab akan memfokuskan pembahasan dasar pada algoritma Data Science berdasarkan tipe variabel dan jenis datanya. Apa saja macam algoritma Data Science? Simak dibawah ini, Yuk!


1. Clustering Analysis (Unsupervised Learning)

Salah satu jenis algoritma pada Machine Learning adalah Unsupervised Learning. Seperti yang pernah dibahas di artikel lainnya, Machine Learning tanpa data maka tidak akan bisa bekerja. Oleh sebab itu, hal yang pertama kali perlu disiapkan adalah data. Unsupervised learning adalah salah satu tipe algoritma Data Science yang digunakan untuk menarik kesimpulan dari dataset. Metode ini hanya akan mempelajari suatu data berdasarkan kedekatannya saja atau yang biasa disebut dengan Clustering.

Salah satu contoh implementasi Unsupervised Learning adalah Clustering Analysis. Tujuan dari clustering ini adalah untuk mengelompokkan data sedemikian sehingga objek-objek pada suatu cluster itu serupa dan objek antar cluster berbeda. Dengan teknologi clustering, sebuah perusahaan dapat mengidentifikasi customer segmen yang berpotensial untuk menjual produk mereka. Perusahaan dapat mengidentifikasi customer segmen yang paling mungkin menggunakan layanan atau membeli produk mereka. Perusahaan juga dapat mengevaluasi segmen pelanggan lalu memutuskan untuk menjual produk guna memaksimalkan keuntungan mereka.

Clustering Analysis atau analisis cluster ini merupakan metode pengelompokan statistik yang digunakan untuk menganalisis sejumlah besar data. Tahapan pertama yang perlu dilakukan adalah mendefinisikan objek studi individu sebagai satu cluster. Lalu langkah selanjutnya, berbagai cluster dengan nilai similarity tertinggi digabungkan untuk membentuk sebuah cluster yang lebih besar. Setelah itu dilakukan analisis yang melibatkan jarak antara kelompok individu untuk membuat kelompok yang lebih besar lagi sehingga hasil akhirnya akan menghasilkan sekelompok cluster yang besar.

Contoh penerapan Clustering Analysis yaitu ketika seorang Data Analyst ingin mengelompokkan client dari salah satu provider hosting di Indonesia berdasarkan kemiripan sifat dalam hal pendapatan umur, hobi, dan jenis pekerjaannya. Maka untuk mengelompokkan customer berdasarkan kemiripan sifat, Machine Learning tidak memerlukan data training. Melainkan menggunakan data yang ada langsung bisa mengelompokkan customer-customer tersebut.


Baca Juga: Algoritma Data Science: Pentingnya Belajar Algoritma R dalam Dunia Data


2. Classification Models (Supervised Learning)

Algoritma Supervised Learning merupakan jenis algoritma yang tidak bisa belajar sendiri tetapi harus diberi contoh terlebih dahulu dengan cara memberi label pada dataset yang kita punya. Memberi label disini artinya adalah dataset kita telah diberikan nilai kebenarannya yang akan dijadikan sebagai nilai target atau nilai acuan. Supervised Learning dapat membantu suatu organisasi dalam memecahkan berbagai masalah real yang dalam skala besar, seperti mengklasifikasikan spam dalam folder terpisah di kotak masuk email kamu.

Algoritma Supervised Learning dibagi menjadi 3 model yaitu, model Classification, Regression, dan Forecasting. Salah satunya yaitu Classification Models. Klasifikasi merupakan model solusi dari permasalahan mengkategorisasikan sekelompok observasi baru ke sekumpulan kategori (kelas) yang ada sebelumnya. Terdapat cukup banyak model klasifikasi yang dapat digunakan, mulai dari yang klasik seperti Linear Discriminant Analysis (LDA) dan regresi logistik, lalu ke moderate seperti SVM (Support Vector Machines), Decision Tree dan Neural Network (jaringan syaraf tiruan), sampai yang lebih terkini seperti Random Forest, XGboost dan Deep Learning. Pastinya diantara banyak model klasifikasi tersebut memiliki kelebihan dan kekurangannya masing-masing.

Contoh penerapan classification ini dapat diimplementasikan ketika ingin memprediksi suatu hal yang hasilnya dalam bentuk data kategorik. Tidak ada aturan tertentu yang mensyaratkan kapan kita menggunakan algoritma tertentu untuk case data tertentu, yang jelas ketika kita menjumpai business case bertipe classification task, maka alangkah baiknya kita coba beberapa alternatif algoritma classification tersebut agar mendapatkan performansi prediksi yang lebih baik.

 

3. Semi-Supervised Learning

Ada kalanya ketika data yang kita punya memiliki variabel target dan prediktor, namun terdapat data yang hilang (missing values) di beberapa observasi di variabel targetnya. Atau misalkan pada kasus lain, kita ingin melakukan clustering, namun dengan suatu kendala atau batasan tertentu kita menginginkan clustering yang sesuai dengan suatu informasi awal yang kita miliki. Pada kasus-kasus seperti ini Semi-Supervised Learning digunakan. Berikut salah satu contoh yang cukup terkenal dari penelitian Tung et al (2000), ketika melakukan Clustering Analysis mesin-mesin ATM bank di suatu kota. namu di kota tersebut terdapat beberapa hambatan (contoh: sungai), sehingga clustering memiliki solusi yaitu menghitung jarak melewati hambatan  atau sungai tadi. Dengan Constrained Clustering ini kita bisa mendapatkan hasil clustering yang feasible atau layak.

Namun Semi-Supervised Clustering bisa menjadi solusi clustering yang tidak hanya feasible, tapi juga sesuai dengan yang diinginkan/diharapkan. Semi-Supervised Clustering dapat dilakukan dengan menggunakan label, fungsi jarak tertentu, constraint, hybrid, dan pemilihan parameter cluster lainnya.


Baca Juga: Yuk, Kenali 3 Algoritma dalam Data Science

4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!       

Nikamati belajar data science secara praktis dan aplikatif bersama DQLab! Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Buka academy.dqlab.id dan pilih menu redeem voucher 

  3. Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi. 

  4. Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.


    Penulis : Salsabila Miftah

    Editor : Annissa Widya Davita

    Mulai Karier
    sebagai Praktisi
    Data Bersama
    DQLab

    Daftar sekarang dan ambil langkah
    pertamamu untuk mengenal
    Data Science.

    Buat Akun


    Atau

    Sudah punya akun? Login