Yuk Kenali Macam-Macam Big Data dan Contohnya!
Seiring berkembangnya zaman, penggunaan internet semakin meningkat. Hal ini mengakibatkan pertumbuhan jumlah data yang meningkat drastis. Data dengan volume besar dan meningkat dalam waktu cepat disebut dengan big data. Tak hanya berukuran besar dan memiliki pertumbuhan yang cepat, big data juga bervariasi sehingga untuk mengolah jenis data ini membutuhkan tools khusus karena tools analisis data konvensional tidak akan sanggup mengolah data yang sangat besar. Pada tahun 2018, tercatat jumlah data yang dihasilkan di internet adalah 33 zettabyte atau sama dengan 33 triliun gigabyte. Data-data ini berasal dari tweets, status, gambar, rekening bank, jalur penerbangan, maps, harga produk, dan informasi digital lainnya. Semua data ini merupakan "harta karun" berharga sangat mahal jika kita bisa memanfaatkan, memproses, dan menyajikannya.
Salah satu hal penting yang harus diperhatikan sebelum bekerja dengan big data adalah memahami dari mana raw data berasal dan bagaimana data tersebut harus diolah agar menghasilkan informasi yang insightful. Mengingat jumlah datanya yang sangat banyak, maka proses ekstraksi harus efisien agar tidak memakan banyak waktu. Semua data melalui proses extract, transform, dan load atau biasa disingkat dengan ETL sebelum dianalisis. Proses ini dimulai dengan mengambil data dan diubah menjadi format tertentu agar dapat dibaca oleh aplikasi kemudian disimpan. Big data diklasifikasikan menjadi tiga, yaitu data terstruktur, data tidak terstruktur, dan data semi terstruktur. Lalu apa itu data terstruktur, data tidak terstruktur, dan data semi terstruktur? Apa contohnya? Pada artikel kali ini, DQLab akan menjelaskannya untukmu. Jadi tunggu apa lagi? Let"s get started!
1. Data terstruktur
Data terstruktur atau dikenal juga dengan structured data merupakan jenis big data yang paling mudah digunakan. Data ini sangat terorganisir dengan dimensi yang ditentukan oleh parameter yang telah ditetapkan. Data jenis ini disimpan dalam database relasional dan spreadsheet. Pada database ataupun spreadsheet, informasi dikelompokkan kedalam baris dan kolom sehingga elemen spesifik yang ditentukan oleh variabel tertentu mudah ditemukan. Contoh informasi tersebut adalah usia, data tagihan, kontak, alamat, dan lain sebagainya. Data terstruktur merupakan jenis data yang paling mudah dianalisis karena hanya memerlukan sedikit proses preprocessing data. Kita hanya perlu membersihkan data dan membaginya menjadi beberapa poin yang relevan tanpa perlu diubah ke format tertentu. Salah satu keuntungan menggunakan data terstruktur adalah proses yang efisien dalam menggabungkan data perusahaan dengan metode relasional.
Proses ETL yang dilakukan pada data terstruktur adalah menyimpan data yang telah dibersihkan ke dalam database relasional. Database relasional adalah kumpulan data yang mudah digunakan. Database ini memudahkan user untuk menemukan informasi eksternal dan mengintegrasikannya dengan data internal. Salah satu contoh database relasional adalah SQL (Structured Query Language). Database ini dapat digunakan untuk mengakses data, menyediakan bahasa yang seragam di seluruh platform dan sumber data.
Baca juga : Pahami Proses Integrasi Data untuk Hasilkan Proses Pengolahan Data yang Valid
2. Data Tidak Terstruktur
Di dunia ini, tidak semua data dikemas dan disortir dengan rapi seperti data terstruktur. Survei menyatakan bahwa lebih dari 80% data di dunia ini merupakan data tidak terstruktur. Jika pada data terstruktur proses ETL sangat sederhana yaitu hanya membersihkan dan memvalidasi pada tahap transformasi, lain halnya dengan proses ETL untuk data tidak terstruktur yang jauh lebih rumit. Untuk menghasilkan informasi yang bermanfaat, data tidak terstruktur harus diinterpretasikan terlebih dahulu. Bagian tersulit dalam menganalisis data tidak terstruktur adalah mengajarkan model untuk memahami informasi yang akan diekstrak dengan cara menerjemahkan data tersebut ke dalam beberapa bentuk data terstruktur. Proses penerjemahan data pun bervariasi, tergantung dari format data yang akan digunakan dan tujuan penelitiannya. Metode yang banyak digunakan untuk data tidak terstruktur adalah penguraian teks, pemrosesan natural language, dan pengembangan hierarki.
Hampir semua analisis data tak terstruktur menggunakan algoritma yang kompleks karena menggabungkan proses pemindaian, interpretasi, dan fungsi kontekstual. Fungsi kontekstual ini akan membuat model semakin akurat. Contoh penerapan model tersebut adalah request google yang meminta kita untuk memilih beberapa gambar yang relevan dengan tujuan untuk membuktikan bahwa kita bukan robot. Contoh lainnya ada di dunia machine learning dan artificial intelligence yang mengajarkan dirinya sendiri cara meningkatkan dan menemukan pola sehingga dapat membangun model yang akurat secara mandiri. Data tidak terstruktur sangat berbeda dengan data terstruktur. Jika data terstruktur disimpan di dalam data warehouse, data tidak terstruktur disimpan dalam data lake. Pada data lake data tidak terstruktur disimpan dalam format mentah. Salah satu contoh data lake adalah hadoop yang dibuat dengan jaringan cluster data dan server yang luas sehingga semua data dapat disimpan dan dianalisis dalam skala besar.
3. Data Semi Terstruktur
Data semi terstruktur merupakan data yang tidak termasuk ke data terstruktur maupun data tidak terstruktur. Data semi terstruktur berada di antara data terstruktur dan data tidak terstruktur. Data ini dapat digunakan untuk pelatihan artificial intelligence dan machine learning dengan mengaitkan pola dengan metadata. Data semi terstruktur tidak memiliki skema pasti. Hal ini bisa menjadi keuntungan sekaligus tantangan karena bisa jadi lebih sulit untuk dikerjakan. Kueri pada data semi terstruktur dapat diatur menurut pembuatan skema melalui metadata. Informasi yang diekstrak pada data tidak terstruktur dapat diolah lebih lanjut menggunakan metadata sehingga dapat menghasilkan informasi yang lebih baik.
Pemrosesan big data juga dilakukan dalam dunia data science. Data science merupakan gabungan dari ilmu matematika, statistika, dan statistika yang dapat digunakan untuk mengolah big data. Di era berbasis teknologi dan menghasilkan jutaan data tiap harinya, data science merupakan salah satu ilmu yang paling banyak dicari karena ilmu ini dapat diterapkan di berbagai lini, mulai dari pendidikan, perbankan, komunikasi, logistik, dan lain sebagainya. Oleh karena itu, saat ini mulai banyak perusahaan yang membutuhkan data scientist. Tidak hanya banyak dibutuhkan, profesi data scientist juga masuk ke dalam profesi dengan salary tinggi di dunia.
Baca juga : Belajar Data Science: Simak 3 Manfaat Penerapan Big Data di Berbagai Industri
4. Yuk, Mulai Belajar Data Science bersama DQLab secara GRATIS!
Tidak memiliki background IT? Jangan khawatir, kamu tetap bisa menguasai Ilmu Data Science untuk siap berkarir di revolusi industri 4.0. Bangun proyek dan portofolio datamu bersama DQLab untuk mulai berkarir di industi! Sign up sekarang untuk #MulaiBelajarData di DQLab!
Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":
Buat Akun Gratis dengan Signup di DQLab.id/signup
Akses module Introduction to Data Science
Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab
Subscribe DQLab.id untuk Akses Semua Module Premium!
Penulis: Galuh Nurvinda Kurniawati
Editor: Annissa Widya Davita