Kenalan dengan Tutorial Simple Menggunakan Spark SQL

Bagi seseorang yang biasa terjun dalam dunia bahasa pemrograman, istilah framework bukanlah hal yang asing bahkan wajib diketahui. Framework merupakan kerangka kerja yang digunakan untuk mengembangkan website. Begitu banyak framework yang dapat digunakan, salah satunya adalah Apache Spark. Salah satu komponen Apache Spark yang sering menjadi pembahasan adalah Spark SQL.
Nantinya, Spark SQL ini akan digunakan untuk memahami bagaimana cara pemrosesan data yang dilakukan secara struktural. Spark SQL akan mengintegrasi pemrosesan relasional dengan pemrograman fungsional Spark. Spark SQL ini memang terbilang cukup advanced sehingga akan terasa asing bagi mereka yang baru pertama kali belajar tentang data.
Pada artikel kali ini khususnya kita akan mengenali lebih dekat terkait Spark SQL hingga tutorial Spark SQL.
1. Apache Spark
Apa itu Apache Spark? Apache Spark merupakan sebuah framework yang dapat digunakan untuk mengakses data dari berbagai sumber yang berbeda, kemudian diproses dan disimpan ke dalam penyimpanan data untuk analisis. Fitur-fitur yang dimiliki memungkinkan Data Engineer untuk membangun aplikasi pemrosesan Big Data.
Beberapa kelebihan Apache Spark yaitu performa lebih cepat dibandingkan framework serupa lainnya, mudah digunakan, dapat dituliskan dalam bahasa pemrograman Python, R, Java, dan Scala, serta dilengkapi dengan SQL Library, Streaming, dan Graph Analysis yang memudahkan analisis data.
Baca juga : Saatnya Belajar SQL, Kenali Rekomendasi Query SQL Bagi Pemula
2. Komponen Apache Spark
Sebelumnya telah diketahui bahwa Apache Spark ini tergolong framework yang pemrosesannya cepat serta mudah digunakan. Di belakang itu, terdapat beberapa komponen pendukung yang ada pada Apache Spark antara lain Bahasa Pemrograman (Scala, R, Java, Python); Library (Spark SQL, MLlib, Graphx, Streaming), Engine (Spark Core), Cluster Management (Hadoop Yarn, Apache Mesos, Spark Scheduler).
3. Spark SQL
Apa itu Spark SQL? Spark SQL adalah library yang ditujukan untuk memahami pemrosesan data secara struktural yang terbentuk di dalam inti dari Apache Spark, yang mana kegunaan utamanya adalah untuk memproses data struktural.
Spark SQL menggunakan antarmuka seperti SQL untuk berinteraksi dengan data dari berbagai format seperti CSV, JSON, Parket, hingga ke berbagai database engine seperti MySQL dan SQL Server.
Spark SQL sendiri memiliki library dataframes dan integrated with multiple data sources (Hadoop, Hive, Cassandra dan HBase).
4. Peran dan Fitur SQL Spark
Setiap modul atau library memiliki peran dan fitur masing-masing. Begitu pula SQL Spark yang memiliki beberapa peran berikut:
Sumber DataFrame API: kumpulan pustaka untuk bekerja dengan tabel data
DataFrame API: membantu menentukan Frame Data yang berisi baris dan kolom
Catalyst Optimizer: kerangka kerja optimasi yang diperluas dengan A SQL Engine dan Command Line Interface.
Selain itu, terdapat beberapa fitur SQL Spark yang akan membantu seperti 1) Integrasi dengan Spark, 2) Penyeragaman akses data, 3) Kompatibilitas dengan Hive, 4) Konektivitas standar dengan alat bisnis intelegent, 5) Fungsi buatan pengguna.
5. Spark SQL Tutorial
Seperti yang telah diketahui bahwa Spark SQL merupakan sebuah library yang dapat digunakan untuk memahami pemrosesan data, maka pada bagian ini kita akan mengenali sedikit langkah menggunakan Spark SQL. Beberapa langkah berikut ini merupakan gambaran atau langkah umum menggunakan Spark SQL Tutorial:
Membuat file Jupyter Notebook.
Membuat data frame dari file csv.
Menjalankan query pada dataframe.
Sebelum menjalankan Spark SQL, ada beberapa prasyarat yang harus kalian penuhi. Prasyarat yang perlu kalian siapkan adalah:
Pastikan kalian mengedit URL https://SPARKCLUSTER.azurehdinsight.net/jupyter dengan mengganti SPARKCLUSTER dengan nama cluster Spark kalian. Kemudian masukkan URL yang diedit di browser web. Jika diminta, masukkan info masuk kluster untuk kluster.
Dari halaman web Jupyter, Untuk kluster Spark 2.4, Pilih Baru>PySpark untuk membuat notebook. Untuk rilis Spark 3.1, pilih Baru>PySpark3 untuk membuat notebook karena kernel PySpark tidak lagi tersedia di Spark 3.1.
Kemudian siapkan data frame dengan format .csv. Kemudian kalian perlu menjalankan kode:
from pyspark.sql import *
from pyspark.sql.types import *
Hingga kalian mendapat output seperti :
Setelah itu kalian dapat menjalankan kode untuk membuat data frame dan tabel.
Untuk menjalankan querynya kalian dapat membuat query sebagai berikut:
SELECT column FROM table WHERE kondisi;
Baca juga : Catat! Ini 3 Keuntungan Belajar SQL dalam Mengolah Data
Memahami bahasa SQL merupakan hal wajib bagi praktisi data. SQL akan sering digunakan untuk pengelolaan dan analisis data. Bagi pemula bisa mulai belajar perintah-perintah dasar pada SQL seperti mengambil data dari tabel, membuat database, menghapus data kosong, dan lain sebagainya. Mungkin terlihat remeh, namun query tersebut akan sering digunakan ketika bekerja dengan data.
Modul SQL di DQLab akan membantu pemula data memahami dasar-dasar perintah SQL sehingga dapat menjadi bekal utama untuk terjun ke profesi data.
Yuk, gabung di DQLab.id sekarang! Dapatkan sertifikat gratisnya di setiap penyelesaian modul dan dapat diunggah di media sosial kamu, loh.
Penulis: Salsabila MR
Editor: Annisa Widya Davita
Postingan Terkait
Menangkan Kompetisi Bisnis dengan Machine Learning
Mulai Karier
sebagai Praktisi Data
Bersama DQLab
Daftar sekarang dan ambil langkah pertamamu untuk mengenal Data Science.