BEDUG MERIAH Diskon 95%
Belajar Data 6 BULAN Bersertifikat hanya Rp150K!

0 Hari 3 Jam 29 Menit 5 Detik

Kenalan dengan Tutorial Simple Menggunakan Spark SQL

Belajar Data Science di Rumah 09-Oktober-2022
https://dqlab.id/files/dqlab/cache/048b493a4cce1389cd211f01acf4c815_x_Thumbnail800.jpeg

Bagi seseorang yang biasa terjun dalam dunia bahasa pemrograman, istilah framework bukanlah hal yang asing bahkan wajib diketahui. Framework merupakan kerangka kerja yang digunakan untuk mengembangkan website. Begitu banyak framework yang dapat digunakan, salah satunya adalah Apache Spark. Salah satu komponen Apache Spark yang sering menjadi pembahasan adalah Spark SQL.


Nantinya, Spark SQL ini akan digunakan untuk memahami bagaimana cara pemrosesan data yang dilakukan secara struktural. Spark SQL akan mengintegrasi pemrosesan relasional dengan pemrograman fungsional Spark. Spark SQL ini memang terbilang cukup advanced sehingga akan terasa asing bagi mereka yang baru pertama kali belajar tentang data.


Pada artikel kali ini khususnya kita akan mengenali lebih dekat terkait Spark SQL hingga tutorial Spark SQL.


1. Apache Spark

Apa itu Apache Spark? Apache Spark merupakan sebuah framework yang dapat digunakan untuk mengakses data dari berbagai sumber yang berbeda, kemudian diproses dan disimpan ke dalam penyimpanan data untuk analisis. Fitur-fitur yang dimiliki memungkinkan Data Engineer untuk membangun aplikasi pemrosesan Big Data.

Sql

Beberapa kelebihan Apache Spark yaitu performa lebih cepat dibandingkan framework serupa lainnya, mudah digunakan, dapat dituliskan dalam bahasa pemrograman Python, R, Java, dan Scala, serta dilengkapi dengan SQL Library, Streaming, dan Graph Analysis yang memudahkan analisis data.


Baca juga : Saatnya Belajar SQL, Kenali Rekomendasi Query SQL Bagi Pemula


2. Komponen Apache Spark

Sql

Sebelumnya telah diketahui bahwa Apache Spark ini tergolong framework yang pemrosesannya cepat serta mudah digunakan. Di belakang itu, terdapat beberapa komponen pendukung yang ada pada Apache Spark antara lain Bahasa Pemrograman (Scala, R, Java, Python); Library (Spark SQL, MLlib, Graphx, Streaming), Engine (Spark Core), Cluster Management (Hadoop Yarn, Apache Mesos, Spark Scheduler).


3. Spark SQL

Apa itu Spark SQL? Spark SQL adalah library yang ditujukan untuk memahami pemrosesan data secara struktural yang terbentuk di dalam inti dari Apache Spark, yang mana kegunaan utamanya adalah untuk memproses data struktural. 

Sql

Spark SQL menggunakan antarmuka seperti SQL untuk berinteraksi dengan data dari berbagai format seperti CSV, JSON, Parket, hingga ke berbagai database engine seperti MySQL dan SQL Server.

Spark SQL sendiri memiliki library dataframes dan integrated with multiple data sources (Hadoop, Hive, Cassandra dan HBase).


4. Peran dan Fitur SQL Spark

Setiap modul atau library memiliki peran dan fitur masing-masing. Begitu pula SQL Spark yang memiliki beberapa peran berikut:

  • Sumber DataFrame API: kumpulan pustaka untuk bekerja dengan tabel data

  • DataFrame API: membantu menentukan Frame Data yang berisi baris dan kolom

  • Catalyst Optimizer: kerangka kerja optimasi yang diperluas dengan A SQL Engine dan Command Line Interface.

Sql

Selain itu, terdapat beberapa fitur SQL Spark yang akan membantu seperti 1) Integrasi dengan Spark, 2) Penyeragaman akses data, 3) Kompatibilitas dengan Hive, 4) Konektivitas standar dengan alat bisnis intelegent, 5) Fungsi buatan pengguna.


5. Spark SQL Tutorial

Seperti yang telah diketahui bahwa Spark SQL merupakan sebuah library yang dapat digunakan untuk memahami pemrosesan data, maka pada bagian ini kita akan mengenali sedikit langkah menggunakan Spark SQL. Beberapa langkah berikut ini merupakan gambaran atau langkah umum menggunakan Spark SQL Tutorial:

  • Membuat file Jupyter Notebook.

  • Membuat data frame dari file csv.

  • Menjalankan query pada dataframe.


Sebelum menjalankan Spark SQL, ada beberapa prasyarat yang harus kalian penuhi. Prasyarat yang perlu kalian siapkan adalah:

  • Pastikan kalian mengedit URL https://SPARKCLUSTER.azurehdinsight.net/jupyter dengan mengganti SPARKCLUSTER dengan nama cluster Spark kalian. Kemudian masukkan URL yang diedit di browser web. Jika diminta, masukkan info masuk kluster untuk kluster.

  • Dari halaman web Jupyter, Untuk kluster Spark 2.4, Pilih Baru>PySpark untuk membuat notebook. Untuk rilis Spark 3.1, pilih Baru>PySpark3 untuk membuat notebook karena kernel PySpark tidak lagi tersedia di Spark 3.1.

Sql

  • Kemudian siapkan data frame dengan format .csv. Kemudian kalian perlu menjalankan kode:

    from pyspark.sql import *
    from pyspark.sql.types import *
  • Hingga kalian mendapat output seperti :

Sql

  • Setelah itu kalian dapat menjalankan kode untuk membuat data frame dan tabel.


Untuk menjalankan querynya kalian dapat membuat query sebagai berikut:

SELECT column FROM table WHERE kondisi;


Baca juga : Catat! Ini 3 Keuntungan Belajar SQL dalam Mengolah Data


Memahami bahasa SQL merupakan hal wajib bagi praktisi data. SQL akan sering digunakan untuk pengelolaan dan analisis data. Bagi pemula bisa mulai belajar perintah-perintah dasar pada SQL seperti mengambil data dari tabel, membuat database, menghapus data kosong, dan lain sebagainya. Mungkin terlihat remeh, namun query tersebut akan sering digunakan ketika bekerja dengan data.


Modul SQL di DQLab akan membantu pemula data memahami dasar-dasar perintah SQL sehingga dapat menjadi bekal utama untuk terjun ke profesi data.


Yuk, gabung di DQLab.id sekarang! Dapatkan sertifikat gratisnya di setiap penyelesaian modul dan dapat diunggah di media sosial kamu, loh.


Penulis: Salsabila MR

Editor: Annisa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login