Crawling Sebagai Teknik Pengumpulan Data Sekunder

Belajar Data Science di Rumah 29-Juli-2021

https://dqlab.id/files/dqlab/cache/82823a3a9647aa080d17c35baa113ee5_x_Thumbnail800.jpg

LinkedIn kami untuk info karir dan topik menarik

Daftar Isi:

1. Apa Itu Crawling?
2. Bagaimana Cara Kerjanya?
3. Library Apa yang Digunakan Untuk Crawling Data Twitter?
4. Apa Bedanya dengan Scraping?
5. Belajar Teknik Pengumpulan Data Sekunder dari Modul DQLab

Selain teknik pengumpulan data kualitatif dan teknik pengumpulan data kuantitatif, kamu juga perlu mengetahui teknik pengumpulan data sekunder. Teknik pengumpulan data sekunder merupakan teknik pengumpulan data baik itu kualitatif ataupun kuantitatif yang dilakukan dalam penelitian yang sudah ada untuk menggali suatu permasalahan baru atau menguji hasil penelitian terdahulu tanpa perlu melakukan wawancara, survey, observasi dan teknik pengumpulan data tertentu lainnya. Sumber data sekunder biasanya berupa catatan, arsip atau dokumentasi yang diperoleh dari sekolah dan lembaga pemerintahan.

Seiring dengan perkembangan teknologi yang menyebabkan terjadinya era big data, membuat sumber data sekunder sangat mudah untuk kita dapatkan. Hal ini juga selaras dengan perkembangan teknik pengumpulan data sekunder seperti teknik crawling yang akan kita bahas pada artikel di bawah ini. Jika kebetulan kamu sedang mengulik tentang teknik pengumpulan data sekunder yang fleksibel dan cocok diterapkan pada era pandemi seperti ini, kamu berada pada artikel yang tepat. Karena kami akan membahas tentang teknik crawling. Penasaran? Mari simak artikel DQLab sampai selesai, ya!

1. Apa Itu Crawling?

Sebelum kami membahas lebih jauh tentang web crawling, pertama-tama mari kita pelajari bersama tentang apa itu web crawling. Mungkin sebagian dari kamu sudah sering mendengar istilah web crawling atau crawling data. Ya, web crawling adalah teknik pengumpulan data yang digunakan untuk mengindeks informasi pada halaman menggunakan URL (Uniform Resource Locator) dengan menyertakan API (Application Programming Interface) untuk melakukan penambangan dataset yang lebih besar. Data yang dapat kamu kumpulkan dapat berupa text, audio, video, dan gambar. Kamu dapat memulai dengan melakukan penambangan data pada API yang bersifat open source seperti yang disediakan oleh Twitter. Untuk melakukan crawling data di Twitter kamu dapat menggunakan library scrapy ataupun tweepy pada python.

2. Bagaimana Cara Kerjanya?

Yang pertama adalah dengan mencari URL yang dituju, kemudian menjelajahi daftar alamat web untuk check out. Web crawling akan mengunjungi setiap URL yang ada pada daftar, mengidentifikasi tautan di setiap halaman dan menambahkannya ke daftar URL untuk dikunjungi. Kemudian menambah indeks berupa teks, gambar, video dan file lainnya. Setelah itu, barulah memperbarui indeks, seperti konten, kata kunci untuk mencoba memahami halaman tersebut. Selanjutnya web frequency dan menggunakan protokol robots.txt untuk berkomunikasi dengan web crawler dan mengetahui mana konten mana saja yang dapat kita ekstrak datanya.

3. Library Apa yang Digunakan Untuk Crawling Data Twitter?

Untuk melakukan crawling data bahasa yang paling sering digunakan adalah python. Python memiliki banyak library yang masing-masing punya fungsi atau kegunaan yang berbeda-beda. Salah satu fungsinya untuk melakukan crawling data twitter yaitu menggunakan tweepy. Tweepy merupakan salah satu library python yang populer dan mudah digunakan untuk mengakses API dari twitter. Dengan Tweepy memudahkan kita untuk mendapatkan data dari twitter berdasarkan keyword yang digunakan. Kamu bisa mendapatkan data sekunder berupa kumpulan komentar atau text di twitter yang bisa kamu gunakan untuk bahan penelitian, misalnya kamu ingin mengetahui sentimen dan opini orang-orang terhadap suatu produk kosmetik tertentu dengan cara melakukan crawling data tweet atau komentar yang menyebutkan nama produk atau akun twitter produk tersebut.

4. Apa Bedanya dengan Scraping?

Banyak orang yang merasa sulit untuk mengidentifikasi perbedaan antara web crawling dan web scraping. Untuk itu kami akan membahas perbedaan antara web crawling dan web scraping. Web scraping itu mengacu pada ekstraksi data dari situs web atau halaman web yang biasanya data ini diekstraksi ke dalam format file yang baru misalnya data dari situs web dapat diekstraksi ke dalam spreadsheet excel, ataupun csv. Web scraping juga dapat dilakukan secara manual dengan cara melakukan parsing menggunakan HTML atau XML, meskipun dalam banyak kasus automation tools dapat digunakan untuk mengekstrak data. Sementaran web crawling itu mengacu pada proses penggunaan BOT atau spider untuk membaca dan menyimpan semua konten di situs web untuk tujuan pengarsipan dan pengindeksan mesin pencari seperti bing atau google menggunakan web crawling untuk mengekstrak semua informasi dari situs web dan mengindeksnya di situs mereka. Selain itu, web crawling biasanya dapat menggunakan API tanpa harus melakukan parsing HTML. Jadi, meskipun web scraping dan web crawling memiliki istilah yang mengacu pada ekstraksi data tapi, mereka memiliki perbedaan tujuan serta aplikasi-aplikasi untuk web scraping dan web crawling juga sangat berbeda.

5. Belajar Teknik Pengumpulan Data Sekunder dari Modul DQLab

Bersama DQLab kamu akan disediakan sumber data primer dan sekunder sehingga kamu bisa langsung mengasah skill tanpa perlu mencari sumber data untuk berlatih atau membangun portfolio kamu. Selain itu, belajar kamu jadi lebih terarah dan kamu juga dapat terhindar dari overdosis informasi, selain itu kamu tidak perlu bingung dengan urusan waktu, karena dengan kursus data science online waktu belajar kamu bisa lebih fleksibel dan dapat diakses dimanapun dan kapanpun. Materi-materi yang ditawarkan lengkap dan sesuai dengan kebutuhan industri, disusun oleh mentor-mentor yang kompeten di bidangnya dari perusahaan unicorn dan startup. Jadi, jangan khawatir, kamu bisa mulai kursus data science online bersama DQLab! Sign up sekarang di DQLab.id atau klik button dibawah ini untuk nikmati pengalaman belajar yang seru dan menyenangkan!

Penulis: Rian Tineges

Editor: Annissa Widya Davita

Crawling Sebagai Teknik Pengumpulan Data Sekunder

Daftar Isi:

1. Apa Itu Crawling?

2. Bagaimana Cara Kerjanya?

3. Library Apa yang Digunakan Untuk Crawling Data Twitter?

4. Apa Bedanya dengan Scraping?

5. Belajar Teknik Pengumpulan Data Sekunder dari Modul DQLab

Tags

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Buat Akun

Crawling Sebagai Teknik Pengumpulan Data Sekunder

Daftar Isi:

1. Apa Itu Crawling?

2. Bagaimana Cara Kerjanya?

3. Library Apa yang Digunakan Untuk Crawling Data Twitter?

4. Apa Bedanya dengan Scraping?

5. Belajar Teknik Pengumpulan Data Sekunder dari Modul DQLab

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Buat Akun

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab