Teknik Pengumpulan Data Sekunder dengan Web Crawling

Belajar Data Science di Rumah 23-Maret-2021

https://dqlab.id/files/dqlab/cache/edce6febbf2bbfb21136a618a6590384_x_Thumbnail800.png

LinkedIn kami untuk info karir dan topik menarik

Daftar Isi:

1. Apa Itu Web Crawling ?
2. Apa Perbedaannya dengan Web Scraping ?
3. Bagaimana Cara Kerja Web Crawling ?
4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!

Web Crawling merupakan salah satu teknik pengumpulan data sekunder melalui media sosial yang bisa kamu terapkan dalam penelitian kamu. Teknik pengumpulan data sekunder adalah cara yang dapat digunakan untuk mengumpulkan data yang sudah tersedia tanpa perlu melakukan wawancara dan survey langsung di lapangan. Hal ini dikarenakan data sekunder adalah sumber data yang berasal dari pihak ketiga sehingga untuk mengumpulkan data tersebut kita hanya perlu mendatangi atau mengakses situs resmi pusat kajian, perpustakaan, kelembagaan, instansi pemerintah, atau bisa dengan melakukan analisis media sosial. Yang mana salah satunya akan kami bahas pada artikel ini yaitu, web crawling.

Dengan menggunakan teknik tersebut akan mempersingkat waktu dalam proses pengumpulan data dan juga menjadi lebih praktis tentunya. Keberadaan web crawling memang baru sering kita dengar beberapa tahun belakangan, berbarengan dengan kemunculan Big Data, dan Data Science. Bagi kamu yang sedang mengulik tentang teknik pengumpulan data sekunder yang fleksibel dan cocok diterapkan pada era pandemi seperti ini, kamu mengunjungi situs yang tepat. Karena kami akan membahas tentang web crawling, mulai dari pengertian web crawling, perbedaan web crawling dengan web scraping, hingga cara kerja web crawling. Jadi, simak terus artikel ini sampai selesai, ya !

1. Apa Itu Web Crawling ?

Sebelum kami membahas lebih jauh tentang web crawling, pertama-tama mari kita pelajari bersama tentang apa itu web crawling. Mungkin sebagian dari kamu sudah sering mendengar istilah web crawling atau crawling data. Ya, web crawling adalah teknik pengumpulan data yang digunakan untuk mengindeks informasi pada halaman menggunakan URL (Uniform Resource Locator) dengan menyertakan API (Application Programming Interface) untuk melakukan penambangan dataset yang lebih besar. Data yang dapat kamu kumpulkan dapat berupa text, audio, video, dan gambar. Kamu dapat memulai dengan melakukan penambangan data pada API yang bersifat open source seperti yang disediakan oleh Twitter. Untuk melakukan crawling data di Twitter kamu dapat menggunakan library scrapy ataupun tweepy pada python.

2. Apa Perbedaannya dengan Web Scraping ?

Sebagian dari kamu yang membaca ini mungkin sedang merasa bingung tentang istilah web crawling dan web scraping. Apakah sama atau keduanya memiliki perbedaan. Jangan khawatir, kamu tidak sendirian. Banyak orang yang merasa sulit untuk mengidentifikasi perbedaan antara web crawling dan web scraping. Untuk itu kami akan membahas perbedaan antara web crawling dan web scraping. Web scraping itu mengacu pada ekstraksi data dari situs web atau halaman web yang biasanya data ini diekstraksi ke dalam format file yang baru misalnya data dari situs web dapat diekstraksi ke dalam spreadsheet excel, ataupun csv. Web scraping juga dapat dilakukan secara manual dengan cara melakukan parsing menggunakan HTML atau XML, meskipun dalam banyak kasus automation tools dapat digunakan untuk mengekstrak data. Akan tetapi jika, kamu ingin mendapatkan data dengan pendekatan terfokus untuk analisis lebih lanjut kamu dapat melakukannya dengan cara manual tersebut. Misalnya perusahaan mungkin mengekstrak detail produk dari pada salah satu situs e-commerce untuk mengetahui bagaimana mereka memposisikan produk mereka di pasar.

Sementaran web crawling itu mengacu pada proses penggunaan BOT atau spider untuk membaca dan menyimpan semua konten di situs web untuk tujuan pengarsipan dan pengindeksan mesin pencari seperti bing atau google menggunakan web crawling untuk mengekstrak semua informasi dari situs web dan mengindeksnya di situs mereka. Selain itu, web crawling biasanya dapat menggunakan API tanpa harus melakukan parsing HTML. Jadi, meskipun web scraping dan web crawling memiliki istilah yang mengacu pada ekstraksi data tapi, mereka memiliki perbedaan tujuan serta aplikasi-aplikasi untuk web scraping dan web crawling juga sangat berbeda.

3. Bagaimana Cara Kerja Web Crawling ?

Yang pertama adalah dengan mencari URL yang dituju, kemudian menjelajahi daftar alamat web untuk check out. Web crawling akan mengunjungi setiap URL yang ada pada daftar, mengidentifikasi tautan di setiap halaman dan menambahkannya ke daftar URL untuk dikunjungi. Kemudian menambah indeks berupa teks, gambar, video dan file lainnya. Setelah itu, barulah memperbarui indeks, seperti konten, kata kunci untuk mencoba memahami halaman tersebut. Selanjutnya web frequency dan menggunakan protokol robots.txt untuk berkomunikasi dengan web crawler dan mengetahui mana konten mana saja yang dapat kita ekstrak datanya.

4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!

Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:

Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.

Penulis : Rian Tineges

Editor : Annissa Widya Davita

Postingan Terkait

Kombinasikan Teknik Analisis Data Kualitatif untuk Bangun Insight dan Visualisasi Data Agar Semakin Menarik

28 Agustus 2020

Teknik Analisis Data: Cegah Kredit Macet dengan Machine Learning

27 Oktober 2018

Teknik Pengumpulan Data Sekunder dengan Web Crawling

Daftar Isi:

1. Apa Itu Web Crawling ?

2. Apa Perbedaannya dengan Web Scraping ?

3. Bagaimana Cara Kerja Web Crawling ?

4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!

Tags

Postingan Terkait

Kombinasikan Teknik Analisis Data Kualitatif untuk Bangun Insight dan Visualisasi Data Agar Semakin Menarik

Teknik Analisis Data: Cegah Kredit Macet dengan Machine Learning

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Buat Akun

Teknik Pengumpulan Data Sekunder dengan Web Crawling

Daftar Isi:

1. Apa Itu Web Crawling ?

2. Apa Perbedaannya dengan Web Scraping ?

3. Bagaimana Cara Kerja Web Crawling ?

4. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!

Tags

Postingan Terkait

Kombinasikan Teknik Analisis Data Kualitatif untuk Bangun Insight dan Visualisasi Data Agar Semakin Menarik

Teknik Analisis Data: Cegah Kredit Macet dengan Machine Learning

Mulai Kariersebagai PraktisiData BersamaDQLab

Buat Akun

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab