Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Kenali Jenis Data yang Digunakan dalam Big Data Analytics

Belajar Data Science di Rumah 15-Desember-2020
https://dqlab.id/files/dqlab/cache/2356c6f7cadc88625f19208b7e76a292_x_Thumbnail800.jpg

Akhir-akhir ini istilah big data sedang menjadi topik hangat yang sering diperbincangkan. Kemajuan teknologi dan ilmu pengetahuan mendorong banyak sektor mulai memanfaatkan jenis-jenis data dalam big data untuk mendapatkan informasi yang dapat digunakan untuk mendukung pengambilan keputusan atau kebijakan. IBM menyatakan bahwa hampir seluruh bisnis di dunia memproduksi 2,5 triliun bytes setiap harinya, dan hampir 90% dari data tersebut diproduksi hanya dalam waktu dua tahun terakhir. Big data mengacu pada kumpulan data yang kompleks dan besar yang harus diproses dan dianalisis untuk mendapatkan informasi berharga yang bermanfaat bagi bisnis dan organisasi. Salah satu keuntungan terbesar dari big data adalah analisis prediktif. Big data dapat memprediksi hasil secara akurat yang akan membantu bisnis dan organisasi untuk membuat keputusan yang lebih baik, sekaligus mengoptimalkan kegiatan operasional dan mengurangi risiko. Selain itu, big data analytics lebih akurat karena menggabungkan data yang relevan dari berbagai sumber untuk menghasilkan informasi yang insightful bagi perusahaan. 

Lalu apa itu big data yang sebenarnya? Untuk menjawab pertanyaan tersebut, ada prinsip dasar big data yang dapat membantu kita dalam memahami istilah big data. Pertama, big data mengacu pada sejumlah besar data yang terus tumbuh secara eksponensial seiring berjalannya waktu. Kedua, big data sangat banyak sehingga tidak dapat diproses atau dianalisis menggunakan teknik pemrosesan data konvensional. Terakhir, big data mencakup data mining, penyimpanan data, analisis data, dan visualisasi data. Seperti yang telah dijelaskan di awal, ada beberapa jenis data yang bisa diolah menggunakan big data analytics. Apa saja data tersebut? Pada artikel kali ini, DQLab akan menjabarkan apa saja tipe data yang bisa digunakan untuk big data analytics. Penasaran? Yuk baca artikelnya sampai selesai!

1. Data Terstruktur, Data Tidak Terstruktur, dan Data Geografis

Data terstruktur adalah data yang disimpan dalam baris dan kolom, rata-rata numerik, dan setiap item data ditentukan. 10% dari total data saat ini adalah data terstruktur dan dapat diakses melalui sistem pengelolaan database. Contoh sumber data terstruktur adalah register resmi yang dibuat oleh lembaga pemerintah untuk menyimpan data tentang penduduk, perusahaan, dan lain sebagainya. Data tidak terstruktur merupakan data yang bentuknya lebih beragam. Contoh data tidak terstruktur adalah data teks, gambar, video, dokumen, dan lain-lain. Salah satu contoh data tidak terstruktur yang saat ini sedang "hot" adalah data media sosial seperti facebook, instagram, dan twitter. Data tidak terstruktur tidak dapat disimpan menggunakan database relasional tradisional. Oleh karena itu, jenis data ini disimpan dengan sistem penyimpanan yang lebih rumit dan bervariasi. Sistem penyimpanan tersebut biasa dikenal dengan database NoSQL. Beberapa contoh database NoSQL adalah MongoDB dan CouchDB. Seperti namanya, data geografis merupakan data yang berkaitan dengan jalan, gedung, danau, alamat, orang, tempat kerja, dan rute transportasi, dan lain-lain yang dihasilkan dari sistem informasi geografis. Data ini menghubungkan tempat, waktu, dan atribut seperti informasi deskriptif. Data geografis lebih mudah diubah, diproses, dan dianalisis jika dibandingkan dengan dua data sebelumnya. Salah satu fungsi data geografis adalah  untuk perencanaan kota dan memantau lingkungan. Saat ini, sudah ada cabang ilmu statistika khusus yang mempelajari data geografis. Cabang ilmu tersebut adalah ilmu geostatistik.

Baca juga : Big Data Analytics : Yuk, Pahami 3 Konsep Wajib Pengolahan Data Bersama DQLab

2. Data real time, data natural language, dan data time series

Apakah kamu pernah menonton video live streaming di youtube atau platform lain? Data yang dihasilkan pada video live streaming merupakan data real time. Ciri khusus dari data real-time adalah masalah penyimpanan dan pemrosesan karena jumlah data yang dihasilkan akan semakin rumit dari waktu ke waktu. Salah satu sumber utama data real time adalah YouTube, Flicker, dan Vimeo yang menghasilkan banyak video, gambar, dan audio. Sumber penting lainnya adalah video konferensi yang bisa menghubungkan dua orang  atau lebih di lokasi berbeda untuk berkomunikasi secara bersamaan. Data natural language adalah data yang dihasilkan oleh manusia, khususnya dalam bentuk verbal. Sumber data natural language adalah perangkat penangkap ucapan, telepon rumah, ponsel, dan Internet yang menghasilkan komunikasi seperti teks dalam ukuran besar. Data time series biasanya terdiri dari pengukuran data yang berurutan dan dicatat selama interval waktu tertentu. fungsi data time series adalah untuk mendeteksi tren dan anomali, mengidentifikasi konteks dan pengaruh eksternal, dan membandingkan individu dengan kelompok atau membandingkan individu pada waktu yang berbeda.

3. Data Event, Data Jaringan, dan Data link

Data event adalah data yang dihasilkan dari pencocokan antara peristiwa eksternal dengan time series. Contohnya adalah informasi yang terkait dengan kecelakaan. Data kecelakaan dikumpulkan dan dianalisis untuk membantu memahami apa saja yang dilakukan kendaraan sebelum, selama, dan setelah kejadian. Dalam contoh ini, data dihasilkan oleh sensor yang dipasang di berbagai tempat di body kendaraan. Data event terdiri dari tiga informasi utama yaitu tindakan yang merupakan peristiwa itu sendiri, timestamp, yaitu waktu saat peristiwa ini terjadi, dan status yang menjelaskan semua informasi lain yang relevan dengan peristiwa tersebut. Data jaringan adalah data yang menyangkut jaringan yang sangat besar, seperti jaringan sosial media, jaringan informasi, misalnya World Wide Web, jaringan biologis, misalnya jaringan biokimia, ekologi dan saraf, dan jaringan teknologi seperti Internet, telepon dan jaringan transportasi. Data jaringan direpresentasikan sebagai node yang terhubung melalui satu atau lebih jenis koneksi. Di jejaring sosial, node biasanya mewakili orang. Dalam jaringan informasi, node mewakili item data, misalnya halaman web. Dalam jaringan teknologi, node dapat mewakili perangkat Internet, misalnya router atau saklar telepon. Dalam jaringan biologis, node dapat mewakili sel saraf, dan lain sebagainya. Data link merupakan data yang dibangun di atas teknologi Web standar seperti HTTP, RDF, SPARQL, dan URI untuk berbagi informasi yang membutuhkan teknologi komputer. Data ini dapat menghubungkan berbagai data dari berbagai sumber. Istilah ini diciptakan oleh Tim Berners-Lee, direktur World Wide Web Consortium, dalam sebuah proyek Semantic Web. Proyek ini menghubungkan data yang sebelumnya tidak ditautkan dengan cara menyediakan mekanisme dan menurunkan hambatan. 

Setiap jenis data memiliki treatment dan proses analisis yang berbeda.  Proses big data analytics tidak akan terlepas dari ilmu data science. Big data dan data science merupakan kombinasi yang powerful untuk menghasilkan informasi yang bermanfaat bagi perusahaan untuk mendukung pengambilan keputusan. Sama seperti big data, ilmu data science dapat diterapkan di segala sektor. Semakin banyak perusahaan yang memanfaatkan big data, maka semakin banyak pula perusahaan yang membutuhkan data scientist untuk mengolah data tersebut. Uniknya, ilmu ini bisa dipelajari oleh semua orang dengan berbagai latar belakang pendidikan. Tak heran jika saat ini, mulai banyak orang yang serius menekuni ilmu data science untuk menjadi data scientist profesional.

Baca juga : Belajar Data Science: Simak 3 Manfaat Penerapan Big Data di Berbagai Industri

4. Yuk, Mulai Belajar Data Science bersama DQLab secara GRATIS!

Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industi! Sign up sekarang untuk #MulaiBelajarData di DQLab!

Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Akses module Introduction to Data Science

  3. Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

  4. Subscribe DQLab.id untuk Akses Semua Module Premium!


Penulis: Galuh Nurvinda Kurniawati

Editor: Annissa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login