GIMANA MEMULAI KARIER JADI DATA ANALYST?
Simak caranya di webinar GRATIS dan raih DOORPRIZE menarik!
DAFTAR SEKARANG!
Pendaftaran ditutup dalam 1 Hari 1 Jam 32 Menit 11 Detik 

Penerapan Algoritma Data Science dalam Memerangi Isu Hoax

Belajar Data Science di Rumah 06-September-2021
https://dqlab.id/files/dqlab/cache/21b9c8e0746676fdf4002bf84352ca30_x_Thumbnail800.jpg


Media sosial telah menjadi kebiasaan dan gaya hidup masyarakat di berbagai belahan dunia. Media sosial telah bertransformasi menjadi salah satu sarana utama untuk saling bertukar informasi dan berkomunikasi di dunia maya. Menurut data dari portal statistik statista.com, jumlah pengguna media sosial di Indonesia hingga kuartal ke 3 tahun 2017 mencapai 49% dari total populasi penduduk di Indonesia. Hal ini membuktikan bahwa banyak masyarakat Indonesia yang telah memanfaatkan media sosial. Berdasarkan dari situs GlobalWebIndex, hingga kuartal ke 3 tahun 2017, 42% pengguna media sosial di seluruh dunia memanfaatkan media sosial dengan alasan untuk tetap menjalin hubungan pertemanan dan mengetahui apa yang mereka kerjakan. Namun akhir-akhir ini, penggunaan media sosial tidak hanya berdampak dari sisi positif saja tetapi juga berdampak pada sisi negatifnya. Salah satu dampak negatif dari penggunaan media sosial adalah penyebaran kabar bohong atau hoax. Hoax juga dapat didefinisikan sebagai isu-isu terkini yang digunakan sebagai senjata politik, kebenaran yang tidak relevan, atau kabar bohong yang disebarkan secara sengaja. Kabar-kabar bohong tersebut apabila tersebar secara luas akan mempengaruhi banyak orang dan dapat menodai suatu citra dan kredibilitas pengguna.


Hoax seakan tidak asing terutama bagi negara kita sendiri. Apalagi masa pandemi ini, banyak beredar kabar bohong yang disebarluaskan untuk menipu atau menyesatkan masyarakat yang kelak nantinya akan dapat mempercayai berita tersebut. Untuk mencegah penyebaran konten Hoax perlu dikembangkan suatu metode yang berfungsi untuk mengidentifikasi konten Hoax sedini mungkin sebelum konten tersebut menjadi viral. Dengan melakukan pencegahan sesegera mungkin maka dampak negatif yang ditimbulkan oleh penyebaran Hoax tersebut bisa diminimalisir. Salah satu metode yang dapat digunakan untuk meminimalisir penyebaran konten hoax adalah dengan penggunaan algoritma data science. Dalam penggunaan algoritma data science, proses identifikasi konten hoax pada media sosial dilakukan dengan dua pendekatan yakni klasifikasi dengan preprocessing dan tanpa pre-processing. Kira-kira penggunaan algoritma machine learning mana sajakah yang bisa memerangi isu terkait adanya konten hoax? Pada artikel DQLab kali ini, kita akan membahas mengenai penggunaan algoritma data science dalam mengatasi isu hoax. Dengan harapan bisa menjadi tambahan insight dan rekomendasi bagi kalian calon praktisi data, developer atau pengembang maupun data enthusiast. Jangan lewatkan artikel berikut ini, pastikan simak baik-baik, stay tune and keep scrolling on this article guys!


1. Klasifikasi Pre-Processing

Berdasarkan hasil kurasi dari beberapa penelitian, penggunaan klasifikasi pre-processing menghasilkan hasil yang bervariasi. Pada penelitian Purwarianti menghasilkan akurasi identifikasi Hoax sebesar 91.36% dengan menggunakan algoritma Naïve Bayes. Rajdev dalam penelitiannya berhasil mengembangkan metode klasifikasi berbasis fitur dengan akurasi yang mencapai 96,43% dan nilai f measure sebesar 0,961. Kemudian, Purnomo dalam penelitiannya mengembangkan metode klasifikasi stance classifier berbasis fitur dan berhasil meraih akurasi terbaik sebesar 95,95% dan nilai f-measure terbaik sebesar 89,66%. Penelitian-penelitian klasifikasi berbasis fitur yang telah dijelaskan terbukti sanggup mengidentifikasi konten Hoax dengan nilai akurasi diatas 90%. Namun metode klasifikasi tersebut memiliki kelemahan yaitu harus melalui tahap Pre-processing, dimana proses klasifikasi harus melalui semi otomatis. Konten media sosial pada tahap preprocessing harus dipecah-pecah per kata atau frasa terlebih dahulu (tokenisasi) kemudian kata-kata yang berjenis tanda baca, sambung dihilangkan karena berpotensi mengganggu proses identifikasi. Tahap-tahap pre-processing menghabiskan banyak waktu apabila jumlah data yang sangat banyak dan dalam berbagai bahasa.


Baca juga : Belajar Data Science Secara Otodidak? Berikut langkah-langkahnya!


2. Klasifikasi Non Pre-Processing

Algoritma Deep learning menerima input berupa kata dan frasa yang terdapat pada media sosial dan melakukan proses klasifikasi secara unsupervised. Implementasi algoritma Deep learning pada proses klasifikasi Hoax memangkas waktu yang diperlukan pada tahap pra-processing. Apabila dibandingkan dengan klasifikasi berbasis fitur, metode klasifikasi tanpa fitur selain memiliki tahapan proses lebih singkat, juga semakin mendekati 100% otomatis. Hal ini disebabkan karena pada tahap pra-processing membutuhkan pengawasan oleh manusia, sehingga peran manusia dalam proses klasifikasi secara keseluruhan masih ada. Penelitian Severyn dan Moschitti dalam penelitiannya mengimplementasikan algoritma Deep Convolutional Neural Network untuk melakukan analisis sentiment pada media sosial twitter. Hasil yang diperoleh dalam penelitian yang dilakukan oleh Severyn dan Moschitti cukup baik dimana tingkat akurasi yang diperoleh sebesar 90,10%. Ada juga sebuah penelitian yang mengembangkan algoritma CNN menjadi Progressive CNN (PCNN) untuk mengklasifikasi konten gambar pada media sosial Twitter. Hasil yang ditunjukan cukup baik dimana metode yang dikembangkan mencapai nilai akurasi paling baik sebesar 78,3% setelah diuji melalui 5-Fold Cross-Validation.


3. Algoritma Text Mining

Penelitian yang dilakukan oleh Tammam menghasilkan sistem pendeteksian tipuan dalam penelitian ini dirancang dengan pendekatan unsupervised learning sehingga tidak memerlukan pelatihan data. Sistem ini dibangun menggunakan algoritma Peringkat Teks untuk ekstraksi kata kunci dan algoritma Cosine Similarity untuk menghitung tingkat kemiripan dokumen. Hasil ekstraksi kata kunci akan digunakan untuk mencari konten yang terkait dengan masukan dari pengguna menggunakan mesin pencari, lalu menghitung nilai kemiripan. Jika konten yang terkait cenderung berasal dari media terpercaya, maka konten tersebut berpotensi faktual. Demikian juga, jika konten yang terkait cenderung dipublikasikan oleh media yang tidak dapat diandalkan, maka ada potensi untuk tipuan. Sistem pendeteksian tipuan telah diuji menggunakan matriks kebingungan, dari 20 data konten berita yang terdiri dari 10 masalah yang benar dan 10 masalah yang salah. Kemudian sistem menghasilkan klasifikasi dengan rincian 13 masalah termasuk salah dan 7 masalah termasuk benar, maka jumlah klasifikasi yang sesuai dengan label asli adalah 15 masalah. Berdasarkan hasil klasifikasi, nilai akurasi 75% diperoleh.


4. Algoritma Naive Bayes

Penelitian ini menggunakan algoritma Naive Bayes yang dilakukan oleh Rahutomo. Penelitian ini mengusulkan untuk melakukan eksperimen klasifikasi naïve Bayes pada deteksi berita hoax berbahasa Indonesia. Penelitian ini menggunakan dataset sendiri sebanyak 600 berita antara berita valid dan hoax. Tiga pembaca berita melakukan klasifikasi manual. Sistem yang dibangun dapat mengklasifikasikan berita daring berbahasa Indonesia dengan fitur term frequency dan algoritma klasifikasi naïve Bayes dengan menggunakan komponen library PHP-ML atau PHP-Machine Learning. Berdasarkan hasil uji coba secara statis, sistem ini menghasilkan akurasi sebesar 82,6% dan pengujian secara dinamis persentase kesesuaian dengan sistem 68,33%


Baca juga : Mulai Belajar Data Science GRATIS bersama DQLab selama 1 Bulan Sekarang!


5. Rancang dan Bangun Kompetensi Data Science Kamu Bersama dengan DQLab!

Berdasarkan survei yang dilakukan oleh Narrative Science pada tahun 2016 bahwa 38% perusahaan besar sudah menggunakan teknologi kecerdasan buatan, dan angka tersebut akan terus meningkat hingga 62% pada 2018. Selain itu, kini profesi Machine Learning Engineer yang merupakan salah satu profesi newbie di dunia data juga semakin diminati di kalangan penggila data karena job dan persaingannya yang cukup jarang. Tidak heran jika saat ini banyak startup dan perusahaan berbasis internet yang berlomba-lomba mengembangkan teknologi artificial intelligence yang dipadukan dengan data science ini. Jika kamu penasaran dengan data science dan ingin belajar lebih dalam tentang data science secara langsung, caranya mudah banget. Kamu bisa loh untuk coba bikin akun gratisnya kesini di DQLab.id atau bisa klik button di bawah ini yap. Nikmati pengalaman belajar data science yang menarik bersama DQLab yang seru dan menyenangkan dengan live code editor. Cobain juga free module Introduction to Data Science with R dan Introduction to Data Science with Python untuk menguji kemampuan data science kamu. Kalian juga bisa mencoba studi kasus penerapan real case industry dan penerapan machine learning dari studi kasus berbagai bidang. Ayo persiapkan dirimu untuk berkarir sebagai praktisi data yang kompeten!



Penulis: Reyvan Maulid


Dalam penelitian, setelah data kuantitatif tersebut telah dikumpulkan dan dibersihkan, selanjutnya kamu perlu melakukan analisis data untuk mendapatkan sebuah insight atau wawasan. Langkah ini penting karena data harus dianalisis dengan benar sebelum peneliti dapat memahami temuan mana yang signifikan dan melaporkan temuan atau membuat penilaian pada hipotesis mereka. Jika data tidak dianalisis dengan hati-hati, temuan mungkin salah diartikan, yang dapat menyebabkan keputusan yang dibuat berdasarkan statistik tidak akurat mewakili seluruh dataset tersebut. Pada artikel kali ini, DQLab akan membahas contoh teknik analisis data dalam penelitian kuantitatif yang penting untuk diketahui. Jangan lewatkan artikel ini ya!


1. Karakteristik Penelitian Kuantitatif

Tujuan kamu dalam melakukan studi penelitian kuantitatif adalah untuk mengetahui hubungan antara satu hal yaitu variabel independen dan hal lainnya yaitu variabel dependen atau hasil dalam suatu populasi. Desain penelitian kuantitatif adalah deskriptif. Sebuah studi deskriptif hanya menetapkan asosiasi antara variabel, sedangkan sebuah studi eksperimental menetapkan kausalitas. Penelitian kuantitatif memiliki ciri yaitu berdasarkan jumlah, logika dan sikap objektif. Penelitian kuantitatif berfokus pada data numerik dan tidak berubah serta menggunakan sistem penalaran terperinci, konvergen daripada penalaran berdasarkan dengan cara spontan dan mengalir bebas.


Baca juga : Analisis Data Adalah: Mengenal Pengertian, Jenis, Dan Prosedur Analisis Data


2. Desain Penelitian Dasar untuk Penelitian Kuantitatif

Sebelum merancang studi penelitian kuantitatif, kamu harus memutuskan apakah itu akan deskriptif atau eksperimental karena ini akan menentukan bagaimana kamu mengumpulkan, menganalisis dan menafsirkan hasilnya. Sebuah studi deskriptif diatur oleh aturan antara lain, subjek umum diukur hanya sekali, tujuannya hanya untuk menetapkan asosiasi antar variabel, dan penelitian ini dapat mencakup populasi sampel ratusan atau ribuan subjek untuk memastikan bahwa perkiraan yang valid dari hubungan umum antara variabel telah diperoleh. Desain eksperimental mencakup subjek yang diukur sebelum dan sesudah perawatan tertentu, populasi sampel mungkin sangat kecil dan dipilih dengan sengaja dan dimaksudkan untuk menetapkan kausalitas antar variabel.


3. Teknik Analisis Data Kuantitatif

Teknik dari studi kuantitatif harus menggambarkan bagaimana masing-masing tujuan studi kamu akan tercapai. Pastikan untuk memberikan detail yang cukup untuk memungkinkan pembaca dapat membuat penilaian informasi tentang teknik yang digunakan untuk memperoleh hasil yang terkait dengan masalah penelitian. Tahap teknik harus disajikan dalam bentuk lampau. 

  • Studi populasi dan pengambilan sampel 

  • Pengumpulan data

  • Analisis data


4. Kelebihan Menggunakan Metode Kuantitatif

Kelebihan dari data kuantitatif adalah dapat melakukan penelitian mendalam, karena data kuantitatif dapat dianalisis secara statistik, sangat mungkin penelitian akan dirinci. Bias minimum, ada contoh dalam penelitian dimana bias pribadi terlibat yang mengarah pada hasil yang salah, karena sifat numerik dari data kuantitatif bias pribadi dikurangi menjadi sebagian besar. Hasil yang akurat, karena hasil yang diperoleh objektif di alam, mereka sangat akurat. Penelitian dengan teknik kuantitatif mencoba mengenali dan mengisolasi variabel spesifik yang terkandung dalam kerangka kerja penelitian, mencari korelasi, hubungan dan kausalitas dan berupaya untuk mengendalikan digunakan dimana data dikumpulkan untuk menghindari resiko variabel selain yang sedang dipelajari. Kelebihan dari penggunaan teknik analisis data kuantitatif adalah memungkinkan untuk studi yang lebih luas, memungkinkan obyektivitas dan akurasi hasil yang lebih besar, menerapkan standar yang sudah baik yang artinya penelitian dapat direplikasi dan dianalisis untuk dibandingkan dengan studi serupa. Selain itu kamu dapat merangkum sumber informasi yang luas dan membuat perbandingan di seluruh kategori dan waktu.


Baca juga : Big Data Analytics dan Kegunaanya untuk Perkembangan Bisnismu


5. Pelajari Tentang Fundamental Statistik Bersama DQLab, Yuk!

Belajar metode statistik merupakan langkah awal yang tepat untuk memulai karir sebagai seorang data scientist. Jika, kebetulan kamu pemula yang ingin belajar seputar dasar statistik dengan pemrograman python atau R tetapi bingung harus mulai belajar dari mana. Sudah coba belajar otodidak, malah overdosis informasi?Jangan khawatir yuk, buruan bergabung bersama DQLab. Kamu tidak akan bingung dengan urusan waktu, karena dengan kursus data science online waktu belajar kamu bisa lebih fleksibel dan dapat diakses dimanapun dan kapanpun. 

Dengan materi-materi yang ditawarkan lengkap dan sesuai dengan kebutuhan industri, disusun oleh mentor-mentor yang kompeten di bidangnya dari perusahaan unicorn dan startup. Jadi, jangan khawatir, kamu bisa mulai kursus data science online bersama DQLab! Sign up sekarang di DQLab.id atau klik button dibawah ini untuk nikmati pengalaman belajar yang seru dan menyenangkan! 



Penulis: Rian Tineges

Editor: Annissa Widya Davita

Sign Up & Mulai Belajar Gratis di DQLab!