Macam Algoritma Data Science pada Email Spam
Data science menawarkan banyak keuntungan, salah satunya berbagi informasi menjadi lebih mudah dan cepat. Diantara semua media yang ada, email merupakan salah satu media berbagi informasi yang paling murah, sederhana, dan cepat. Apapun jenis file bisa kita kirimkan melalui Email, mulai dari file jenis jpg, png, pdf, doc, xls, dan lain sebagainya bisa dilakukan dengan mudah. Namun, dibalik kemudahan yang ditawarkan justru terselip bahaya-bahaya yang ditimbulkan dari email ini. Salah satunya adalah serangan dalam bentuk spam. Email spam adalah pesan yang masuk ke email secara tidak langsung dan tidak diundang. Penggunanya tidak tahu kapan dan siapa yang mengirim. Apalagi berlangganan pun juga tidak pernah, tapi malah dapat email dari mereka.
Email spam diibaratkan seperti mendapatkan SMS kalau kamu menang dan mendapatkan hadiah. Padahal kamu juga heran, dari mana mereka bisa tahu nomor handphone kamu? Pakar media sosial dan sebuah statistik menunjukkan bahwa 40 persen media sosial dipenuhi dengan spam yang dikirim berisi iklan.
Dengan memanfaatkan algoritma data science, kita dapat mengklasifikasikan manakah email yang penting, draft, dan mana yang termasuk dalam kategori spam. Misalnya dengan bantuan machine learning seperti Naive Bayes Classifier, Extreme Learning Machine. Selain membahayakan juga mengancam keamanan data pribadi kita. Berikut ini algoritma data science yang dipakai dalam email spam.
1. Definisi Email Spam
Istilah spam sebenarnya merupakan singkatan dari Sending and Posting Advertisement in Mass. Oleh karena itu, pengertian spam dalam sebuah e-mail adalah pesan yang dikirimkan secara terus-menerus oleh pengirim yang sama.
Spam e-mail pastinya tidak diinginkan oleh penerima pesan lantaran cukup mengganggu. Selain itu, konten dalam spam e-mail biasanya berupa promosi yang tidak dibutuhkan. Penerima pesan pun tidak mengenali orang yang mengirimkan spam e-mail (disebut pula sebagai spammer), apalagi berlangganan newsletter dari mereka.
Baca juga : Data Science Adalah: Yuk Kenali Lebih Jauh Tentang Data Science!
2. Penyebab Pengguna Menerima Email Spam
Mungkin selama ini kamu bertanya-tanya, kenapa ya kok selama ini aku dapet email spam? Berikut adalah beberapa penyebab yang bisa jadi jawaban tentang kenapa seseorang mendapatkan email spam.
Alamat Email kamu diperoleh secara acak - Spammer secara tidak sengaja menemukan alamat email dengan mencari simbol “@” dalam mesin pencari email
Terdapat indikasi kebocoran data - kalian pastinya pernah dengar kasus kebocoran data di salah satu atau beberapa E-commerce bukan? Tidak dapat dipungkiri kalau kejadian seperti ini bisa saja berpotensi mengekspos alamat email milik data seller maupun buyernya juga. Alhasil pastinya banyak data pribadi yang berusaha diretas oleh spammer untuk mereka berusaha melancarkan aksinya
Penemuan alamat email secara manual - Cara licik spammer juga bisa saja mereka menebak-nebak alamat email secara manual ataupun si punya email ini mencantumkan Emailnya lalu dikuasai oleh spammer untuk melakukan spam. Contoh namanya Ussy, bisa saja spammer ini alih-alih menuliskan alamat Email seperti ussysysy@gmail.com atau ussysisisil@ymail.com dan lain-lain
3. Jenis Email Spam
Ada beberapa jenis email spam yang bisa kamu kenali agar kamu lebih berhati-hati dalam menanggapi isi pesan yang dikirimkan oleh spammer. Berikut adalah penjelasannya
Email Phising
Phising merupakan praktek penipuan yang dilakukan oleh spammer untuk mencoba mengelabuhi penggunanya dengan cara menyamar menjadi sebuah brand. Mereka ini berusaha agar user itu mau memberikan informasinya secara cuma-cuma dan mereka ingin user itu mau menyebut data secara pribadinya. Adapun bentuk email yang patut kamu waspadai adalah email yang dikirim sangatlah mirip dengan brand. Mulai dari headline, format email, visualisasi sampai bagian akhir email dibuat semirip mungkin.
Jangan mudah terhasut dulu ya, apabila kamu menemukan alamat website yang tampaknya resmi tapi malah terkesan fiktif. Kalau misalnya kamu diminta untuk menyodorkan nomor rekening jangan percaya ya. Selalu pastikan bahwa email yang kamu terima adalah email yang resmi dan valid. Meskipun terlihat sepele, namun banyak yang terjebak dengan salah satu solusi yang tepat adalah dengan tidak menyebarkan email di website. Jangan sampai kamu mau ya. Bisa bisa ini malah menjadi kesempatan emas bagi spammer melakukan aksinya.
Email Promosi
Selanjutnya adalah Email Promosi. Mungkin kalau bentuknya email yang masuk dalam kotak promosi tidak ada masalah. Misalnya ketika kamu memang berlangganan sesuatu maka kamu akan mendapatkan notifikasinya. Namun apa jadinya kalau promosi yang dikirimkan ke email ini tidak melalui izin dari si penerimanya. Sekilas masalahnya sepele, tapi kalau sudah begini pasti bingung dan bertanya-tanya sendiri. Pastikan betul bahwa semua informasi yang dikirimkan melalui email sudah melewati persetujuan dari sang pemilik.
Email Penipuan
Terakhir adalah Email penipuan. Kalian pasti sudah tidak asing dengan salah satu bentuk spam yang satu ini bukan. Nggak hanya terjadi pada via SMS atau di media sosial saja. Kadang praktik ini juga terjadi pada email. Polanya yang mudah dikenali adalah spammer berpura-pura menjadi seorang public figure, brand, atau orang yang dapat dipercaya oleh user. Kemudian mereka akan meminta bantuan dalam bentuk uang. Pelaku berusaha menggertak lewat tulisan dan meminta si pengguna agar mau mengirimkan uangnya dengan segera.
Baca juga : 3 Contoh Penerapan Data Science yang Sangat Berguna di Dunia Perindustrian
4. Algoritma yang Berperan dalam Email Spam
Banyak sekali algoritma yang berperan dalam email spam. Salah satunya adalah algoritma supervised learning dengan decision tree dan Model Markov. Model yang diusulkan awalnya menandai semua email sebagai spam atau sah dengan mengukur kemungkinan total setiap email dengan bantuan istilah email yang kemudian diklasifikasikan. Setelah itu, membuat pohon keputusan email satu per satu.
Kumpulan data Enron digunakan dalam riset ini yang berisi 5172 email. Dari 5172 email, 2086 adalah spam, sedangkan 2086 adalah email yang sah. Model mereka dapat mengkategorikan email sebagai spam dan ham dengan menggunakan set fitur yang diperoleh dari dataset Enron. Mereka mendapat kesalahan 11% dengan menggunakan fungsi kebugaran perpustakaan sklearn dalam model yang diusulkan. Model mereka mendapatkan hasil akurasi 89% pada dataset yang diberikan.
Ingin tahu lebih lanjut mengenai Machine Learning serta bagaimana membuat suatu model Machine Learning? Kunjungi langsung situs DQLab dan buat Akun Gratis dengan Signup di DQLab.id dan nikmati pengalaman belajar bersama DQLab dengan mengakses module gratis "Introduction to Data Science". Kamu bisa mulai memperdalam ilmu kamu mengenai algoritma Machine Learning dan membangun portofolio datamu dengan belajar bersama DQLab!
Penulis: Reyvan Maulid