PROMO PUNCAK LEBARAN DISKON 99%
Belajar Data Science 6 Bulan BERSERTIFIKAT hanya Rp 99K!

0 Hari 7 Jam 9 Menit 44 Detik

Algoritma Supervised Learning Pada Klasifikasi Email Spam

Belajar Data Science di Rumah 10-Maret-2021
https://dqlab.id/files/dqlab/cache/5e15af260b74a1bf6de28c2bc82cebc0_x_Thumbnail800.jpg

Perkembangan teknologi dewasa ini telah berkembang dengan pesat, khususnya di bidang internet. Bahkan dengan internet, setiap orang dapat mengirim dan menerima pesan dari orang satu ke orang lainnya. Pesan ini yang sekarang lebih dikenal sebagai email. Tetapi tidak semua orang menggunakan fasilitas email dengan baik dan benar, justru malah dapat menyebabkan kerugian bagi orang lain. Hal ini dikarenakan fasilitas e-mail yang murah dan mudah digunakan oleh setiap orang, sehingga mengakibatkan banyaknya spam e-mail yang masuk ke dalam inbox pengguna e-mail. Pada survey yang dilakukan oleh Cranor & La Macchia (1998), ditemukan bahwa 10% dari email yang diterima oleh suatu perusahaan adalah spam-mail. Tahun lalu, Spamcop, yang menjalankan servis untuk menerima laporan tentang spam, menerima lebih dari 183 juta laporan spam. Tentunya hal tersebut akan menambah kapasitas dan beban email dari pengguna. Terlepas dari waktu yang terbuang untuk menghapus spam-email dari inbox, spam juga merupakan pemborosan uang bagi user yang menggunakan koneksi dial-up. Selain itu spam juga membuang bandwidth dan dapat menyebabkan penerima di bawah umur mengakses situs-situs yang tidak seharusnya.


Dengan beragam permasalahan tersebut, hal ini mendorong seorang yang ahli dalam bidang machine learning perlu mengatasi permasalahan tersebut. Salah satu penerapan klasifikasi email spam ini yakni menggunakan algoritma supervised learning. Algoritma supervised learning merupakan salah satu bagian dari machine learning yang menggunakan kumpulan data berlabel untuk melatih model, membuat prediksi output, dan membandingkan output tersebut dengan output yang diinginkan. Algoritma supervised learning akan melatih algoritma dengan memberikan label pada data secara eksplisit. Jenis algoritma supervised learning ini menggunakan kumpulan data yang telah tersedia untuk melatih model yang secara umum dapat ditulis dengan y = f(x). x adalah variabel input, y adalah variabel output dan f(x) adalah hipotesis. Lalu bagaimana penerapannya terhadap e-mail spam. Pada artikel DQLab kali ini, kita akan membahas mengenai penerapan algoritma supervised learning pada klasifikasi e-mail spam. Jadi, pastikan simak baik-baik, stay tune and keep scrolling on this article guys!


1.Mengenal Email Spam

Email Spam bisa diartikan sebagai pesan sampah atau junk mail. Sesuai dengan namanya, spam memiliki sifat untuk mengirimkan pesan elektronik secara bertubi-tubi kepada pemilik email.  Hal ini dilakukan oleh sejumlah oknum yang melakukan penyalahgunaan sistem pengiriman pesan. Alhasil, mereka pun membagikan pesan berupa iklan atau promosi tersebut secara massal ke semua orang. Tentunya hal ini akan menimbulkan rasa tidak nyaman kepada orang yang menerima pesan SPAM tersebut. Pihak yang bertanggung jawab dalam mengirimkan junk mail itu kemudian disebut sebagai spammer. Email SPAM yang terlalu banyak tentunya berimbas kurang baik karena bisa mengurangi space inbox dan kurang sedap dipandang mata. Jenis email SPAM lainnya biasanya berisikan tentang berita hoax atau isu tertentu yang dibuat oknum tak bertanggung jawab. Penyebaran hoax tentunya akan meresahkan karena menciptakan gosip-gosip yang belum diketahui secara pasti kebenarannya. Banyak masyarakat yang pada akhirnya bingung dengan berita tersebut. Ditambah lagi, hoax yang terlanjur merajalela bisa mengadu domba pihak tertentu, mempengaruhi kebijakan yang diambil, serta membuat masyarakat tidak tenang


Baca juga : 3 Jenis Algoritma Machine Learning yang Dapat Digunakan di Dunia Perbankan


2.Penyebab Email Spam

Email Spam terjadi karena tindakan tak sengaja yang kita lakukan. Jadi apabila anda hendak mengirim email dengan format yang ada di bawah ini sebaiknya anda hati-hati. Pasalnya, email anda akan langsung masuk SPAM secara otomatis. Apabila ada orang yang tidak suka mendapatkan pesan tertentu dari pihak tak dikenal, bisa saja mereka menandai email tersebut sebagai spam. Hal ini banyak terjadi jika mereka terhubung dengan situs tertentu yang memberikan balasan email berupa notifikasi yang up to date. Jika aktivitas anda di web tersebut cukup intens, maka email notifikasi yang masuk ke email pun juga akan luar biasa banyaknya. Biasanya hal ini sering ditemukan di situs social media. Untuk mengantisipasi hal ini, pengguna biasanya menandai email terkait dengan memilih menu Mark As Spam. Jadi setiap ada email masuk dari pengirim yang ditandai Mark As Spam maka secara otomatis pesan akan masuk ke folder spam. Disinilah sebaiknya pengirim email tidak sembarangan dalam berkirim pesan elektronik. Karena ada kalanya pihak yang menerima tidak nyaman dengan hal ini. Kemudian mereka akan menandainya sebagai spam.


Baca juga : Belajar Data Science: Pahami Penggunaan Machine Learning pada Python


3.Penggunaan Algoritma Unsupervised Learning pada Email Spam

Berdasarkan hasil penelitian yang dilakukan oleh Santoso tahun 2019, menghasilkan temuan bahwa Email spam sangat mengganggu pengguna akun email untuk mendapatkan informasi yang relevan. Deteksi spam email sebenarnya telah diterapkan pada layanan email untuk umum dengan berbagai metode. Tetapi untuk penggunaan akun email perusahaan dalam jumlah terbatas, tidak semua server email menyediakan fitur deteksi email spam. Administrator server harus menambahkan fitur deteksi spam yang terpisah atau modular sehingga akun email dapat dilindungi dari email spam. Penelitian ini bertujuan untuk mendapatkan metode terbaik dalam proses pendeteksian email spam. Beberapa metode pembelajaran mesin seperti Regresi Logistik, Decision Tree dan Random Forest Acak diterapkan dan dibandingkan hasil untuk mendapatkan metode yang paling efisien untuk mendeteksi email spam. Pengukuran efisiensi diperoleh dari kecepatan proses pelatihan dan pengujian, serta akurasi dalam mendeteksi email spam. Hasil yang diperoleh dalam penelitian ini menunjukkan bahwa metode Random Forest memiliki kinerja terbaik dengan kecepatan data uji 0,19 detik dan akurasi 98%. Hasil ini dapat dijadikan acuan untuk pengembangan pendeteksian spam dengan menggunakan metode lain.


4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!       


Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Buka academy.dqlab.id dan pilih menu redeem voucher 

  3. Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi. 

  4. Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.

    Penulis: Reyvan Maulid

    Editor : Annissawd


    Mulai Karier
    sebagai Praktisi
    Data Bersama
    DQLab

    Daftar sekarang dan ambil langkah
    pertamamu untuk mengenal
    Data Science.

    Buat Akun


    Atau

    Sudah punya akun? Login