3 Algoritma Data Science untuk Membangun Proyek Data Kamu
Jauh sebelum internet booming, tools serta teknologi belum secanggih sekarang algoritma data science sudah ada sejak lama. Agar komputer dapat memecahkan masalah, kita perlu membuat rumusan langkah-langkah penyelesaian tersebut dalam suatu rangkaian instruksi agar dapat memperoleh output yang diinginkan dari suatu inputan dalam waktu yang terbatas. Nah, sekumpulan instruksi-instruksi tersebut yang dinamakan algoritma. Hal ini sama untuk semua permasalah yang membutuhkan komputer untuk membantu memecahkannya termasuk juga dalam bidang data science. Algoritma data science juga demikian, terdiri dari instruksi-instruksi yang dapat digunakan untuk memecahkan pola-pola dibalik suatu data. Terdapat 3 jenis algoritma dalam data science antara lain supervised learning, unsupervised learning, dan reinforcement learning.
Dimana algoritma supervised learning merupakan jenis algoritma yang tidak bisa belajar sendiri tetapi harus diberi contoh terlebih dahulu dengan cara memberi label pada dataset yang kita punya. Memberi label disini artinya adalah dataset kita telah diberikan nilai kebenarannya yang akan dijadikan sebagai nilai target atau nilai acuan. Sementara Unsupervised Learning mengacu pada kesimpulan pola yang mendasari sekumpulan data tak berlabel atau tanpa referensi apa pun ke hasil atau prediksi berlabel, meskipun tanpa label kita memiliki data-data aktual yang dapat digunakan untuk mengobservasi data tersebut berdasarkan kriteria yang sejenis untuk mendapatkan suatu kesimpulan. Reinforcement Learning berfokus pada proses pembelajaran yang diatur, dimana algoritma Machine Learning ini dilengkapi dengan serangkaian tindakan, parameter, dan nilai akhir. Untuk lebih lanjut, artikel ini akan membahas 3 contoh algoritma data science berdasarkan ketiga jenisnya tadi, yang bisa kamu terapkan pada proyek data kamu. Yuk, simak penjelasannya !
1. Support Vector Machine (SVM)
Algoritma SVM termasuk kedalam jenis algoritma supervised learning karena untuk dapat melihat pola suatu data harus diberikan di training terlebih dahulu. Sebenarnya SVM termasuk ke dalam model klasifikasi dan regresi, tetapi lebih banyak digunakan dalam kasus-kasus klasifikasi. Karena dengan model SVM kita dapat melakukan plotting pada setiap item data sebagai titik dalam ruang n-dimensi (dimana n adalah jumlah fitur yang kita miliki) dengan nilai di setiap fitur tersebut menjadi nilai koordinat tertentu. Kemudian, kita akan melakukan klasifikasi dengan menemukan hyperplane yang membedakan kedua kelas dengan sangat baik serta dari sisi feasibility SVM tergolong mudah diimplementasikan. Tetapi SVM memang cenderung tidak cocok digunakan untuk jumlah sampel berskala besar, serta SVM baru bisa dikembangkan untuk pengklasifikasian dua class atau lebih saja sedangkan untuk kasus multiclass problem masih dalam tahap penelitian.
Baca juga : Belajar Data Science Secara Otodidak? Berikut langkah-langkahnya!
2. K-Means Clustering
Algoritma K-Means Clustering termasuk dalam jenis algoritma unsupervised learning karena untuk dapat memprediksi dan menarik kesimpulan kita tidak perlu melabeli satu persatu data, tapi kita akan mengumpulkan data-data yang memiliki kemiripan berdasarkan clusternya. Secara umum K-Means Clustering menentukan jumlah dari cluster pembagian, mengalokasikan data secara acak ke cluster yang telah ada, menghitung rata-rata pada setiap cluster dari data yang ada tergabung di dalamnya, kemudian mengalokasikan kembali semua data yang berada di cluster terdekat, dan mengulang proses mengulang kembali proses menghitung rata-rata pada setiap cluster dari data yang tergabung di dalamnya. K-means clustering mudah ketika diimplementasikan sehingga waktu yang dibutuhkan untuk melakukan pembelajaran relatif lebih cepat, dan menggunakan prinsip yang dapat dijelaskan dalam non-statistik. Meskipun begitu, K-means perlu menginisialisasikan titik k secara random sehingga kemungkinan mendapat nilai penginisialisasi kurang baik maka pengelompokan yang didapatkan menjadi tidak optimal. Penggunaan k random , tidak menjamin untuk menemukan kumpulan cluster yang optimal juga.
3. Q-Learning
Jenis Algoritma Q-learning termasuk dalam jenis algoritma reinforcement learning yang cocok digunakan dalam kasus-kasus pembuatan aplikasi robot. Sesuai dengan namanya Q-learning menggunakan tabel Q untuk mencocokan kondisi diskrit dan aksi saja. Q-learning merupakan terobosan paling penting dalam reinforcement learning. Tidak seperti TD-learning yang memperbarui value function berdasarkan state selanjutnya, Q-learning memperbarui value function berdasarkan nilai action-value function terbesar di state selanjutnya. Tetapi, untuk aplikasi robot dengan arsitektur kontrol waktu nyata yang ukuran kondisi dan data sensornya bersifat kontinu, hal ini justru menjadi tidak praktis.
Baca juga : Mulai Belajar Data Science GRATIS bersama DQLab selama 1 Bulan Sekarang!
4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!
Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:
Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.
Penulis : Rian Tineges
Editor : Annissa Widya Davita