Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Yuk Berkenalan dengan Spark SQL & Intip Tutorialnya

Belajar Data Science di Rumah 22-Juli-2022
https://dqlab.id/files/dqlab/cache/5c28aec2dfd7feb1a3565ff25f41ba7e_x_Thumbnail800.jpg

Perintah SQL berfungsi untuk memberikan sebuah informasi berupa data yang diakses dari sebuah database dan data yang didapatkan biasanya data berbentuk tabel. Data yang kalian dapat bisa saja diperoleh dari satu tabel dan sudah mengalami proses pemfilteran berdasarkan kondisi yang kalian inginkan. Kalian juga bisa mendapatkan data dari beberapa tabel sekaligus jika query yang kalian buat lebih complex. 


Mendalami SQL bisa membuat kalian menjadi semakin penasaran. Kenapa? Karena kalian akan menemukan fungsi-fungsi baru yang akan mempermudah kalian pada saat kalian bekerja. Salah satu fungsi yang akan kalian temukan di SQL adalah Spark SQL. Apa kalian sudah pernah mencobanya? Untuk kalian yang masih baru dengan Spark SQL ini, artikel ini sangat cocok untuk kalian baca!


Penasaran? Yuk simak artikel dibawah ini!


1. Definisi Spark SQL

sql

Spark SQL merupakan salah satu library yang menggabungkan hasil pengolahan data relasional dengan menggunakan Spark functional programming API. Penggunaan library ini akan mendukung pengolahan data dengan penggunaan query SQL atau dengan bahasa query Hive.


Spark SQL menggunakan SQL sebagai penghubung untuk berinteraksi dengan beberapa format data seperti CSV dan JSON dan beberapa database engine seperti SQL Server dan MySQL.


Baca juga : Saatnya Belajar SQL, Kenali Rekomendasi Query SQL Bagi Pemula


2. Peranan Penting  Spark SQL

Awalnya Spark SQL ini diciptakan sebagai Apache Hive yang berfungsi untuk menjalankan spark. Dengan perkembangan zaman, fungsi Spark SQL berkembang menjadi alat untuk mengatasi kelemahan dari Apache Hive. Selain itu, Spark SQL juga memiliki peran penting lainnya seperti:

  • Menjadi sumber data frame API, yakni beberapa kumpulan buku untuk bekerja dengan tabel.

  • DataFrame API, yakni akan membantu kalian dalam menemukan frame data yang berisikan baris dan kolom.

  • Catalyst optimizer, yakni kerangka kerja optimal yang diperluas menggunakkan SQL engine dan command line interface. Sedangkan catalyst merupakan kumpulan modul yang dibuat berdasarkan perintah dari sistem


3. Fitur Spark SQL

Spark SQL memiliki beberapa fitur yang dapat membantu kalian, fitur-fitur yang dapat kalian gunakan diantaranya:

  • Menghubungkan dengan Spark

    Spark SQL akan terhubung dengan program Spark yang membuat penggunanya dapat meminta data terstruktur dari pemrograman spark dengan menggunakan DataFrame API atau dengan menggunakan SQL.

  • Penyeragaman Akses 

    SQL dan DataFrame akan membantu dan mendukung kalian untuk mengakses berbagai sumber data seperti JSON, JDBC, Hive Avro dan lain sebagainya. 

  • Konektivitas standar

    Spark SQL dapat menggabungkan alat optimasi yang berbayar untuk mendapatkan query yang digunakan untuk menghitung ribuan data.

  • Kompatibilitas dengan Hive

    Spark SQL dapat menjalankan query Hive yang tidak dapat termodifikasi pada data. Cara kerjanya dengan menulis ulang kode frontend dari Hive sehingga dapat melakukan kompatibilitas secara penuh dengan Hive.


Baca juga : Catat! Ini 3 Keuntungan Belajar SQL dalam Mengolah Data


4. Spark SQL Tutorial

Sebelum menjalankan Spark SQL, ada beberapa prasyarat yang harus kalian penuhi. 

Prasyarat yang perlu kalian siapkan adalah

  • Pastikan kalian mengedit URL https://SPARKCLUSTER.azurehdinsight.net/jupyter dengan mengganti SPARKCLUSTER dengan nama kluster Spark kalian. Kemudian masukkan URL yang diedit di browser web. Jika diminta, masukkan info masuk kluster untuk kluster.

  • Dari halaman web Jupyter, Untuk kluster Spark 2.4, Pilih Baru>PySpark untuk membuat notebook. Untuk rilis Spark 3.1, pilih Baru>PySpark3 untuk membuat notebook karena kernel PySpark tidak lagi tersedia di Spark 3.1.

  • Kemudian siapkan data frame dengan format .csv. Kemudian kalian perlu menjalankan kode:

    from pyspark.sql import *
    from pyspark.sql.types import *

    Hingga kalian mendapat output seperti :

sql

  • Setelah itu kalian dapat menjalankan kode untuk membuat data frame dan tabel.


Untuk menjalankan querynya kalian dapat membuat query sebagai berikut :

%%sql
SELECT column FROM table WHERE kondisi;

Mempelajari sesuatu secara mendalam akan membuat skill kalian menjadi lebih matang dan mungkin akan membuat kalian menjadi seorang ahli SQL.


Tapi untuk menjadi seorang ahli tentunya kalian juga memerlukan skill dasar yang kuat untuk melangkah. Jika kalian sedang belajar SQL dari basic dan ingin meningkatkan ilmu, kalian bisa belajar bersama DQLab. 


Disini kalian akan mempelajari modul-modul hasil kolaborasi DQLab dengan para ahli praktisi data. Modul di DQLab disesuaikan dengan kondisi lapangan saat ini.


Jadi ilmu yang kalian dapat akan bisa langsung kalian praktikan di dunia kerja. Sangat menarik bukan? Yuk mulai belajar data science bersama DQLab dengan sign up di DQLab.id!


Penulis : Winda Sarah Audina

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login