Tutorial Simpel Menggunakan SQL Spark
Bagi seseorang yang biasa terjun dalam dunia bahasa pemrograman, istilah framework bukanlah hal yang asing bahkan wajib diketahui. Framework ini mencakup library, model software, Application Programming Interfaces (API) dan beberapa hal lainnya. Salah satu framework yang sering digunakan adalah Apache Spark. Apache Spark memiliki beberapa komponen utama, salah satunya adalah Spark SQL. Pada artikel kali ini khususnya kita akan mengenali lebih dekat terkait SQL dan Tutorial Spark SQL.
Spark SQL sendiri merupakan library dalam Apache Spark yang digunakan untuk mengakses dan mengkomputasi data secara struktur. Spark SQL pun akan sangat membantu dalam mengakses Relational Database Management System (RDBMS) dan dapat mensupport beberapa sumber data dan memungkinkan untuk menjalankan query SQL dengan memanfaatkan transformasi kode.
1. Apache Spark
Apache Spark merupakan framework yang dapat digunakan untuk pemrosesan big data sertai juga dapat digunakan untuk mengakses data dari berbagai sumber. Apache Spark akan sangat berguna digunakan sebagai pelengkap dalam penanganan big data dan machine learning.
Hal ini dikarenakan apache spark memiliki fitur andalan mengumpulkan memori yang dapat meningkatkan kecepatan pemrosesan aplikasi. Terdapat beberapa komponen utama Apache Spark yaitu Spark SQL, Spark Streaming, MLlib (Machine Learning), GraphX, dan Spark Core.
Baca juga : Saatnya Belajar SQL, Kenali Rekomendasi Query SQL Bagi Pemula
2. Spark SQL
Pada bagian sebelumnya telah diketahui bahwa Spark SQL merupakan salah satu komponen utama dari Apache Spark. Spark SQL ini digunakan untuk proses komputasi data secara struktural. SQL sendiri memiliki keterkaitan serta ciri khas dengan Relational Database Management System (RDBMS).
Spark SQL ini memiliki struktur utama yaitu berupa data frame yang diinputkan dalam kumpulan RDD dan row. Selain itu, Spark SQL juga dapat melakukan integrasi pemrosesan relasional dengan pemrograman fungsional Spark.
3. Peran dan Fitur SQL Spark
Setiap modul atau library memiliki peran dan fitur masing-masing. Begitu pula SQL Spark yang memiliki beberapa peran berikut:
Sumber DataFrame API: kumpulan pustaka untuk bekerja dengan tabel data
DataFrame API: membantu menentukan Frame Data yang berisi baris dan kolom
Catalyst Optimizer: kerangka kerja optimasi yang diperluas dengan A SQL Engine dan Command Line Interface.
Selain itu, terdapat beberapa fitur SQL Spark yang akan membantu seperti 1) Integrasi dengan Spark, 2) Penyeragaman akses data, 3) Kompatibilitas dengan Hive, 4) Konektivitas standar dengan alat bisnis intelegent, 5) Fungsi buatan pengguna.
4. Tutorial SQL Spark
Sebelum menjalankan query SQL Spark, pengguna perlu membuat dataframe dari file csv yang dapat dibuat langsung dari file atau di folder penyimpanan jarak jauh. Setelah membuat dataframe, maka pengguna dapat menjalankan query pada dataframe tersebut, dengan menjalankan kode berikut
SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date = "6/1/13"
adapun kode di atas dapat disesuaikan dengan dataframe yang dibuat. Lalu jika ingin melihat visual output lainnya dapat memilih fitur Area. Setelah itu pilih File -> Simpan dan Pos Pemeriksaan. Jika sudah selesai maka pilih File -> Tutup dan Hentikan.
Baca juga : Catat! Ini 3 Keuntungan Belajar SQL dalam Mengolah Data
Bahasa SQL adalah salah satu bahasa query yang sangat sering digunakan untuk menangani hal-hal terkait database relasional. Skill inilah yang perlu dimiliki pula oleh para praktisi data. Bagi kalian yang ingin belajar bahasa SQL dari awal, jangan khawatir. Kalian bisa belajar di DQLab
DQLab menyajikan materi secara teori maupun praktek. Selain itu di DQLab juga bekerja sama dengan perusahaan-perusahaan ternama terkait perekrutan profesi data analyst baik sebagai pekerja tetap atau sebagai informasi magang.
Cara bergabungnya sangat mudah. Langsung saja sign up di DQLab.id/signup dan nikmati belajar data science DQLab.
Penulis : Latifah Uswatun Khasanah
Editor : Annissa Widya Davita