Mengenal Dasar Spark SQL, Salah Satu Library untuk Big Data

Belajar Data Science di Rumah 13-Agustus-2022

https://dqlab.id/files/dqlab/cache/67acb97041d28f919e7d03c4dfa52268_x_Thumbnail800.jpg

Seiring perkembangan teknologi, semakin banyak muncul tools-tools yang memudahkan pengelolaan data dan analisis data. Mengingat sekarang hampir seluruh aktivitas manusia beralih ke digital, data pun semakin banyak dan bertumpuk. Sehingga butuh tools tertentu yang dapat membantu pekerjaan terkait data.

Salah satu tools tersebut adalah SQL. SQL atau singkatan dari Structured Query Language adalah salah satu bahasa query yang dirancang untuk mengambil informasi tertentu dari database. SQL pertama kali dirilis pada tahun 1970 dengan nama SEQUEL (structured english query language). Namun, beberapa tahun kemudian SEQUEL pun diubah menjadi SQL dan semakin populer dalam hal pengolahan database. Selain pengenalan mengenai SQL, pada artikel kali ini kita akan mengenali pula apa itu Spark SQL.

Dalam artikel ini kita akan membahas hal-hal menarik mengenai SQL Spark yang mungkin terdengar agak asing bagi sebagian pemula. Penasaran kan? Yuk langsung saja kita simak artikelnya!

1. Spark SQL

SQL

Spark SQL adalah library yang ditujukan untuk memahami pemrosesan data secara struktural yang terbentuk di dalam inti dari Apache Spark, yang mana kegunaan utamanya adalah untuk memproses data struktural.

Apache Spark adalah sebuah framework komputasi yang dapat digunakan untuk mengakses data, memproses data, menanyakan data serta menganalisis Big Data. Fitur-fitur dalam Apache Spark akan sangat membantu para Data Engineer dalam pemrosesan Big Data.

Spark SQL menggunakan antarmuka seperti SQL untuk berinteraksi dengan data dari berbagai format seperti CSV, JSON, Parket, hingga ke berbagai database engine seperti MySQL dan SQL Server.

Spark SQL sendiri memiliki library dataframes dan terintegrasi dengan multiple data sources (Hadoop, Hive, Cassandra dan HBase).

2. Fitur yang Tersedia di Spark SQL

SQL

Di dalam Spark SQL, ada beberapa fitur yang bisa kamu manfaatkan untuk bisa membuat proses pengolahan data mu menjadi lebih efektif, diantaranya adalah:

Terintegrasi dengan Spark, dimana Spark membiarkan para user nya untuk mendapatkan data terstruktur dari program Spark yang menggunakan SQL atau DataFrame API. Dalam hal ini, kita bisa memanfaatkan bahasa pemrograman lain seperti Scala, Python, Java serta R.
Adanya penyeragam akses data, dimana data yang bersumber dari Hive Avro, Parket, ORC, JSON, dan JDBC bisa digabungkan dengan menggunakan SQL.
Konektivitas dengan Business Intelligence Tools. SQL dapat digunakan untuk memberikan koneksi antara JDBC dan ODBC yang merupakan tools BI, kemudian Spark SQL digunakan untuk menggabungkan alat tersebut untuk melakukan optimasi.
Menjalankan query Hive yang tidak termodifikasi
Memiliki fungsi User-Defined Functions (UDF) yang dapat digunakan untuk memperluas kosakata DSL dari SQL dan dapat mentransformasikan set data.

3. Cara Kerja Spark SQL

SQL

Ada 3 bagian utama dari gambar di atas yaitu, Frontend, Catalyst dan Backend. Frontend (eksternal) masuk dan diproses dengan katalisasinya dengan proses optimalisasi, kemudian di bagian backendnya dilakukan penentuan model dan distribusi dengan RDD (Resilient Distributed Dataset).

Untuk Frontend sendiri, data bisa berasal dari HIVE Query, SQL Query dan DataFrame. Awalnya data masih tidak terstruktur atau semi terstruktur, kemudian data akan dianalisis dan di optimisasi dan menghasilkan optimized logical plan. Dari sini data sudah terstruktur dan diteruskan ke bagian Backend dan dilakukan physical plans dimana menentukan model data dan didistribusikan oleh RDD.

4. Spark SQL Data Source

Dalam Spark SQL, ada beberapa jenis data source yang bisa dijalankan, diantaranya adalah:

JSON Dataset, Spark SQL dapat secara otomatis menangkap skema kumpulan data JSON dan memuatnya sebagai DataFrame.
Hive Tables, Hive dilengkapi dengan bundel library Spark sebagai HiveContext, yang mewarisi dari SQLContext.
Parquet Files, Parquet sendiri merupakan data yang memiliki format kolom, didukung oleh banyak sistem pemrosesan data.

Spark SQL merupakan salah satu teknologi yang dapat digunakan untuk memproses data yang berukuran besar atau dikenal dengan istilah Big Data. Sebelum masuk ke tingkat advance tersebut, ada baiknya hal-hal yang bersifat fundamental dari SQL loh.

Media belajar SQL dari dasar pun dapat kita peroleh dari berbagai platform, salah satunya adalah DQLab. DQLab menyediakan materi secara teori maupun praktek. Selain itu terdapat berbagai modul, serta ebook yang membantu memudahkan proses belajar terutama bagi pemula.

Cara bergabungnya sangat mudah. Langsung saja Sign Up di DQLab.id dan nikmati belajar Data Science DQLab.

Penulis: Salsabila MR

Editor: Annisa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Mengenal Dasar Spark SQL, Salah Satu Library untuk Big Data

1. Spark SQL

2. Fitur yang Tersedia di Spark SQL

3. Cara Kerja Spark SQL

4. Spark SQL Data Source

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab