PROMO PUNCAK LEBARAN DISKON 99%
Belajar Data Science 6 Bulan BERSERTIFIKAT hanya Rp 99K!

1 Hari 5 Jam 51 Menit 1 Detik

Mengenal Apa Itu Spark SQL dan Tutorial Penggunaannya

Belajar Data Science di Rumah 27-Juni-2022
https://dqlab.id/files/dqlab/cache/9a529cfab94c016aed3ed780f27c9322_x_Thumbnail800.jpg

Seiring perkembangan teknologi, semakin banyak muncul tools-tools yang memudahkan pengelolaan data dan analisis data. Mengingat sekarang hampir seluruh aktivitas manusia beralih ke digital, data pun semakin banyak dan bertumpuk. Sehingga butuh tools tertentu yang dapat membantu pekerjaan terkait data. Ada beberapa yang umum digunakan seperti SQL, Python, dan R. Selain untuk analisis, tools tersebut juga berguna untuk membangun machine learning.


SQL sendiri merupakan bahasa query yang digunakan untuk manajemen data berbasis relasional dan memudahkan akses data ketika dibutuhkan di masa mendatang. Salah satu tools digunakan untuk menjalankan SQL adalah Spark SQL. Dibentuk dalam lingkungan Apache Spark, modul ini memberikan manfaat terutama bagi praktisi data yang berhadapan dengan Big Data. Apa itu Spark SQL? Yuk, simak pembahasannya bersama di bawah ini!


1. Apache Spark

sql

Apa itu Apache Spark? Apache Spark merupakan sebuah framework yang dapat digunakan untuk mengakses data dari berbagai sumber yang berbeda, kemudian diproses dan disimpan ke dalam penyimpanan data untuk analisis. Fitur-fitur yang dimiliki memungkinkan Data Engineer untuk membangun aplikasi pemrosesan Big Data.


Beberapa kelebihan Apache Spark yaitu performa lebih cepat dibandingkan framework serupa lainnya, mudah digunakan, dapat dituliskan dalam bahasa pemrograman Python, R, Java, dan Scala, serta dilengkapi dengan SQL Library, Streaming, dan Graph Analysis yang memudahkan analisis data. 


Baca juga : Saatnya Belajar SQL, Kenali Rekomendasi Query SQL Bagi Pemula


2. Spark SQL

sql

Spark SQL adalah modul yang dirancang untuk pemrosesan data secara struktural yang terbentuk dalam Apache Spark. Jika sudah terbiasa menggunakan RDBMS, penggunaan Spark SQL tidaklah begitu sulit. Pada awalnya, Spark SQL dibuat sebagai Apache Hive untuk menjalankan Spark. Namun sekarang berkembang menjadi tools yang berguna dalam mengatasi kelemahan Apache Hive. Beberapa kegunaan Spark SQL yaitu sebagai berikut:

  • Sumber DataFrame API yaitu kumpulan library untuk bekerja dengan tabel data.

  • DataFrame API untuk membantu menentukan Frame Data.

  • Catalyst Optimizer yaitu modul pustaka atau library yang dibutat berdasarkan perintah sistem untuk optimasi kerangka kerja. 


3. Fitur-Fitur Spark SQL

sql

Mirip dengan tools pemrograman lainnya, Spark SQL juga memiliki fitur-fitur yang membantu pekerjaan praktisi data. Beberapa diantaranya adalah sebagai berikut:

  • Terintegrasi dengan program Spark yang membuat user dapat meminta data terstruktur dari program-program Spark menggunakan SQL atau DataFrame API dan dapat digunakan untuk Java, Scala, Python, dan R.

  • Mendukung dalam mengakses berbagai sumber data serta membantu menggabungkan data untuk mengakomodasi keperluan pengguna.

  • Kompatibel dengan Hive dengan menulis ulang frontend dari Hive dan meta store. 

  • Mampu memberi koneksi melalui JDBC atau ODBC yaitu industri dengan konektivitas untuk alat bisnis intelijen.

  • Memiliki fungsi UDF (User-Defined Functions) yang saling terintegrasi.


4. Cara Install Apache Spark di Windows

sql

Bagaimana sih cara install Apache Spark? Hal pertama yang harus kamu lakukan yaitu pastikan bahwa perangkat kamu sudah terinstall Java dan Python. Jika belum kamu bisa menginstalnya terlebih dahulu. Setelah itu baru kamu bisa menginstall Apache Spark. Langkah-langkahnya yaitu sebagai berikut:

  1. Download versi Apache Spark di web resminya (https://spark.apache.org/downloads.html)

  2. Pilih versi yang kamu butuhkan (disarankan versi terbaru) seperti gambar berikut.

sql

  1. Klik link pada Download Spark untuk mengunduh Apache Spark

  2. Verifikasi file software Spark untuk memastikan file tidak corrupt dengan memeriksa checksum pada file

  3. Ekstrak file dan buat folder di drive C: dengan mengetikkan di command line

    cd 
    mkdir Spark

  1. Copy Spark ke folder tersebut

  2. Buka file .bashrc kemudian simpan dan jalankan perintah source ~/.bashrc

  3. Cek Spark dengan perintah spark-shell

  4. Spark telah terinstall dengan bahasa default yaitu Scala


Baca juga : Catat! Ini 3 Keuntungan Belajar SQL dalam Mengolah Data


Memahami bahasa SQL merupakan hal wajib bagi praktisi data. SQL akan sering digunakan untuk pengelolaan dan analisis data. Bagi pemula bisa mulai belajar perintah-perintah dasar pada SQL seperti mengambil data dari tabel, membuat database, menghapus data kosong, dan lain sebagainya. Mungkin terlihat remeh, namun query tersebut akan sering digunakan ketika bekerja dengan data. 


Modul SQL di DQLab akan membantu pemula data memahami dasar-dasar perintah SQL sehingga dapat menjadi bekal utama untuk terjun ke profesi data. Yuk, gabung di DQLab.id sekarang! Dapatkan sertifikat gratisnya di setiap penyelesaian modul dan dapat diunggah di media sosial kamu, loh.


Penulis: Dita Kurniasari

Editor: Annissa WIdya






Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login