Operasi String Split Python dengan Python RegEx
Python memiliki banyak fungsi yang bisa diaplikasikan user dalam melakukan ekstraksi data menjadi sebuah informasi yang bermanfaat. Salah satu operasi yang bisa dimanfaatkan untuk melakukan pengolahan data adalah operasi string split Python. Bicara tentang string maka tidak terlepas dari salah satu contoh tipe data yang ada dalam bahasa pemrograman Python. Saat menggunakan operasi string split Python maka hal yang perlu diperhatikan adalah semua pada dasarnya adalah karakter. Karakter disini bisa bermacam-macam mulai dari spasi, besar kecilnya huruf, simbol yang terdapat pada keyboard untuk menegaskan operasi tertentu. Apalagi karakter yang sering dijumpai dalam sebuah dataset adalah karakter dalam bentuk teks.
Ekspresi yang biasanya digunakan untuk melakukan operasi string split adalah Python RegEx. Python RegEx atau Regular Expression adalah operasi string khusus dalam menemukan pola pencarian suatu karakter. Adapun karakter yang ada dalam huruf ascii atau latin dalam keyboard dan Unicode digunakan untuk mencocokkan teks asing. Misalnya angka, tanda baca, dan semua karakter khusus berupa simbol seperti $#!&% dan lain-lain. Pada artikel kali ini, kita akan membahas tentang operasi string split Python dengan Python RegEx. Buat kalian yang penasaran dan belajar sama-sama tentang string split Python, jangan sampai skip postingan ini yaaa. Simak sama-sama yuk sahabat DQLab.
1. Mengenal Python RegEx
Sebelum kita membahas lebih jauh tentang operasi Python RegEx, kita akan mengulas sedikit tentang apa sih Python RegEx itu? Python RegEx atau Reguler Expression dalam bahasa pemrograman Python adalah operasi yang ditunjukkan dalam bentuk ekspresi untuk tipe data string. RegEx digunakan untuk menggambarkan pola pencarian. Hal ini sangat berguna untuk melakukan ekstraksi informasi dari teks seperti kode, file, log, spreadsheet, maupun dalam bentuk dokumen juga bisa ditangani dengan Python RegEx.
Ekspresi Python RegEx dapat diaplikasikan pada operasi string split sebagai berikut:
Pencocokan teks
Perulangan atau Konsep Looping
Percabangan atau IF-ELSE-ELIF
Pola komposisi
Python RegEx dalam bahasa pemrograman Python dilambangkan dengan RE (RE, Regex atau pola RegEx) diimpor melalui re module. Python mendukung ekspresi reguler melalui library yang sudah disediakan. RegEx dengan menggunakan Python mendukung berbagai hal seperti Modifiers, Identifiers, dan White Space Characters.
Baca juga : Yuk Cari Tahu Perbedaan Python R dan SQL
2. Sintaks Python RegEx
Sekarang kita akan membahas tentang penulisan sintaks secara umum pada Python RegEx. Berikut adalah sintaksnya:
Keterangan:
Perintah re yang ada dalam modul bahasa pemrograman Python umumnya digunakan untuk pencarian karakter string dan manipulasi data
Selain itu, perintah re juga dipakai dalam melakukan kegiatan scraping pada website yang mana user akan melakukan ekstrak data dalam jumlah yang besar dari berbagai sumber salah satunya website.
3. Operasi Re.match()
Kita masuk pada contoh fungsi dari operasi Python RegEx. Dimulai dari operasi re.match(). Operasi re.match() pada Python RegEx merupakan fungsi yang ditujukan untuk mencari pola ekspresi reguler dan mengembalikan kejadian pertama. Nah, khusus untuk operasi Re.match() maka RegEx akan memeriksa kecocokan hanya di awal string. Jadi, apabila pada kata pertama pada suatu string ini ternyata cocok maka RegEx akan memunculkan nilai atau output yang sesuai tadi. Namun, jika yang terjadi adalah string yang ditemukan pada baris pertama ternyata tidak cocok maka Python RegEx pada operasi re.match() akan mengembalikan nilai nol.
Untuk lebih jelasnya, berikut adalah contoh dari operasi re.match():
Perhatikan pada output diatas, disana terdapat sederetan list yang berisikan tiga anggota yaitu guru99 get, guru99 give, dan guru Selenium. Rencananya kita akan mengecek apakah karakter yang masuk dalam list ini sudah sesuai atau belum. Untuk mendeteksinya, fungsi Python re.match() ini menggunakan ekspresi “w+” dan “W”. Dua ekspresi ini akan memeriksa apakah kata-kata yang ada di dalam list ini dimulai dengan huruf g atau tidak. Apabila ekspresi “w+” dan “W” tidak menemukan kata-kata yang berawalan dengan huruf g maka tidak akan teridentifikasi. Berikut adalah hasilnya
Berdasarkan hasil pengecekan terhadap masing-masing list, ternyata didalam list menggunakan kata yang berawalan dengan huruf g. Maka dengan menggunakan “w+” dan “W” maka dapat teridentifikasi.
Baca juga : Mengenal Perbedaan R Python dan SQL
4. Operasi Re.search()
Selanjutnya adalah fungsi re.search(). Fungsi ini akan mencoba untuk menemukan pola dalam suatu teks. Berbeda dengan fungsi sebelumnya yaitu re.match() yang memeriksa semua baris string input. Sedangkan re.search() hanya akan mengembalikan objek yang cocok dengan mengeluarkan output berupa nilai atau kalimat. Apabila tidak cocok maka re.search() akan mengeluarkan fungsi null. Nah, untuk menggunakan fungsi re.search() ini, pengguna perlu mengimpor module Python terlebih dahulu dan kemudian mengeksekusi kodenya. Fungsi re.search() hanya berfokus pada mengambil “pola” dan “teks” untuk memindai dari string utama.
Berikut adalah contoh dari fungsi re.search()
Misalkan, dalam operasi ini kita memiliki dua jenis dimana pattern yaitu software testing dan guru99. Sedangkan textnya yaitu software testing is fun. Kita ingin melihat dengan menggunakan operasi looking for antara pattern dan text. Kira-kira apakah menghasilkan pola yang sama dengan teksnya atau beda. Mari kita buktikan.
Berdasarkan hasil pengecekan terhadap masing-masing pattern dan textnya ternyata menghasilkan dua jawaban. Pertama pada kata software testing yang kemudian dipasangkan dengan kata software testing is fun menghasilkan output found a match. Hal ini disebabkan kata software testing muncul sebanyak dua kali pada sintaks berikut.
Selain fungsi split yang digunakan untuk memisahkan data string, ada berbagai fungsi lain pada Python yang digunakan untuk data manipulation, data cleaning, data visualization, dan analisis data lainnya.
Yuk perdalam skill Python kamu bersama DQLab! Pelajari berbagai library dan fungsi Python dengan menulis script codenya secara langsung dengan live code editor dari DQLab.
DQLab adalah platform belajar online yang memiliki metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Menariknya lagi, DQLab juga mengintegrasikan modulnya dengan fitur ChatGPT nih! Fungsinya untuk apa?
Membantumu mendapatkan penjelasan dari code yang sedang dipelajari.
Membantumu menemukan code yang salah atau tidak sesuai.
Memberikan alternatif solusi dari problem/error yang kalian temukan.
Jadi, tunggu apalagi? Nikmati pengalaman belajar praktis dan menyenangkan di DQLab dengan Sign Up segera di sini!
Penulis: Reyvan Maulid