Dasar-dasar Spark SQL yang Perlu Diketahui Oleh Pemula

Belajar Data Science di Rumah 02-Juli-2022

https://dqlab.id/files/dqlab/cache/67972a763aadaeab97a08f1e0a098cc9_x_Thumbnail800.jpg

Spark SQL mungkin terdengar agak asing bagi sebagian orang. Apa sih Spark SQL itu? Spark SQL merupakan salah satu modul yang ada di dalam Apache Spark. Spark SQL dapat digunakan untuk memahami bagaimana pemrosesan data secara struktural. Apache Spark sendiri merupakan sebuah teknologi mesin untuk melakukan pemrosesan data yang berukuran besar secara cepat dan mudah untuk digunakan. Selain SQL, Apache Spark juga memiliki modul bawaan lain, seperti untuk streaming, Machine Learning (ML) serta pemrosesan grafik.

Diakui atau tidak, perkembangan teknologi digital yang disebabkan karena adanya revolusi industri 4.0. Menyebabkan data yang ada saat ini berjumlah sangat banyak. Adanya Apache Spark digunakan untuk mengimbangi data yang sangat banyak tersebut karena Apache Spark dapat digunakan untuk mempercepat komputasi. Teknologi ini menjadi salah satu skill yang harus dikuasai oleh Data Engineer. Namun tidak menutup kemungkinan juga bahwa praktisi data lainnya harus menguasai hal tersebut.

Dalam artikel ini kita akan membahas hal-hal basic dari Spark SQL yang harus diketahui oleh pemula. Penasaran dengan penjelasannya? Yuk, baca terus artikelnya!

1. SQL Spark

SQL

Spark SQL adalah salah satu modul yang tersedia di dalam Apache Spark. Struktur utama dari Spark SQL ini berupa data frame yang diinputkan dalam kumpulan RDD dan row. Pada dasarnya, RDD memang dirancang untuk mendukung penyimpanan data dalam memori sehingga akhirnya dapat didistribusikannya ke seluruh cluster dengan cara yang efektif dan efisien. Spark SQL dapat melakukan integrasi pemrosesan relasional dengan pemrograman fungsional Spark. Hal ini dapat memberikan support terhadap beberapa sumber data dan memungkinkan untuk menjalankan query SQL dengan memanfaatkan transformasi kode sehingga bisa menghasilkan alat yang sangat kuat.

2. Komponen dari Spark

SQL

Apache Spark Core

Spark Core adalah mesin eksekusi umum yang mendasari untuk platform spark yang dibangun di atas semua fungsi lainnya. Bagian ini menyediakan komputasi In-Memory dan referensi dataset dalam sistem penyimpanan eksternal.

Spark SQL

Spark SQL adalah salah satu komponen yang ada di atas Spark Core yang memperkenalkan abstraksi data baru yang disebut SchemaRDD, yang menyediakan dukungan untuk data terstruktur dan semi-terstruktur.

Spark Streaming

Spark Streaming memanfaatkan kemampuan fast scheduling dari Spark Core untuk melakukan analitik streaming. Hal ini dapat bermanfaat untuk menyerap data dalam mini-batch dan melakukan transformasi RDD (Resilient Distributed Datasets) pada mini-batch data tersebut.

MLib (Machine Learning Library)

MLlib adalah kerangka kerja Machine Learning yang terdistribusi di atas Spark karena arsitektur Spark berbasis memori terdistribusi. Spark MLlib sembilan kali lebih cepat dari Apache Mahout versi disk Hadoop (sebelum Mahout mendapatkan antarmuka Spark).

GraphX

GraphX ‹‹adalah kerangka kerja pemrosesan grafik terdistribusi di atas Spark. Bagian ini menyediakan API untuk mengekspresikan perhitungan grafik yang dapat memodelkan grafik yang ditentukan pengguna dengan menggunakan API abstraksi Pregel. Ini juga menyediakan runtime yang dioptimalkan untuk abstraksi ini.

3. Bagaimana Spark Dibangun dengan Hadoop

Pada diagram di bawah ini, kita bisa melihat tiga cara yang mungkin dapat digunakan agar Spark dapat dibangun dengan komponen Hadoop.

SQL

Standalone

Penyebaran Spark Standalone berarti Spark menempati tempat di atas HDFS (Hadoop Distributed File System) dan ruang dialokasikan untuk HDFS, secara eksplisit. Di sini, Spark dan MapReduce akan berjalan berdampingan untuk mencakup semua pekerjaan percikan di cluster.

Hadoop Yarn

Penerapan Hadoop Yarn berarti Spark berjalan pada Yarn tanpa memerlukan pra-instalasi atau akses root. Ini membantu mengintegrasikan Spark ke ekosistem Hadoop atau Hadoop stack. Hal ini juga memungkinkan komponen lain untuk berjalan di atas stack.

Spark in Map Reduce

Spark di MapReduce digunakan untuk meluncurkan pekerjaan Spark tambahan selain pada penerapan Standalone. Dengan SIMR, pengguna dapat memulai Spark dan menggunakannya tanpa akses administratif apa pun.

4. Spark SQL Data Source

Dalam Spark SQL, ada beberapa jenis data source yang bisa dijalankan, diantaranya adalah:

JSON Dataset,

Spark SQL dapat secara otomatis menangkap skema kumpulan data JSON dan memuatnya sebagai DataFrame.

Hive Tables

Hive dilengkapi dengan bundel library Spark sebagai HiveContext, yang mewarisi dari SQLContext.

Parquet Files

Parquet sendiri merupakan data yang memiliki format kolom, didukung oleh banyak sistem pemrosesan data.

Spark SQL merupakan salah satu teknologi yang dapat digunakan untuk memproses data yang berukuran besar atau dikenal dengan istilah big data. Sebelum masuk ke tingkat advance tersebut, ada baiknya hal-hal yang bersifat fundamental dari SQL loh.

Eits, kamu gak perlu bingung harus belajar SQL dimana karena DQLab juga menyediakan modul SQL yang sangat cocok bagi pemula karena membahas hal-hal yang bersifat fundamental. Agar bisa mengaksesnya, kamu cukup berlangganan untuk menjadi member premium di DQLab.

Yuk, tunggu apa lagi? Sekarang giliran mu!

Penulis: Gifa Delyani Nursyafitri

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Dasar-dasar Spark SQL yang Perlu Diketahui Oleh Pemula

1. SQL Spark

2. Komponen dari Spark

3. Bagaimana Spark Dibangun dengan Hadoop

4. Spark SQL Data Source

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab