Intip 5 Cara Hapus Duplikasi di SQL, Catat Sekarang!
Duplikasi data di dalam tabel SQL bisa menjadi masalah serius yang mengakibatkan inkonsistensi data. Masalah ini dapat menyebabkan laporan yang tidak akurat, pesanan yang diproses beberapa kali, dan berbagai gangguan lainnya. Idealnya, masalah ini bisa dicegah dengan menggunakan primary key, tetapi dalam beberapa kasus di mana aturan ini tidak diterapkan atau terjadi pengecualian, duplikasi menjadi lebih sulit diatasi.
Salah satu praktik terbaik untuk mencegah risiko duplikasi pada bahasa pemrograman SQL adalah menggunakan keys dan constraints yang relevan. Namun, jika tabel sudah terlanjur berisi data duplikat, maka diperlukan prosedur khusus untuk membersihkannya.
Dalam artikel ini, kita akan membahas beberapa metode untuk menghapus baris duplikat di SQL, baik di tabel yang memiliki unique constraints maupun yang tidak. Simak penjelasannya yuk sahabat DQLab!
1. Membuat dan Memasukkan Data ke dalam Tabel
Salah satu metode yang umum digunakan untuk menghapus data duplikat adalah dengan memanfaatkan klausa GROUP BY dan HAVING. Berikut adalah contoh implementasi untuk membersihkan data duplikat dalam sebuah tabel. Pertama-tama, kita perlu membuat tabel dengan data duplikat untuk dijadikan contoh:
Source by Reyvan
Baca juga: Bootcamp Data Analyst with SQL and Python
2. Menampilkan Data dan Mengidentifikasi Baris Duplikat
Setelah data dimasukkan, kamu dapat menggunakan perintah berikut untuk melihat semua data dalam tabel:
Source by Reyvan
Output:
Source by Reyvan
Dari output di atas, terlihat bahwa beberapa baris memiliki data yang sama (duplikat)
3. Menghapus Duplikasi Menggunakan GROUP BY dan HAVING
Kita dapat menggunakan klausa GROUP BY bersama dengan HAVING untuk mengidentifikasi dan menghapus baris yang duplikat:
Source by Reyvan
Output:
Source by Reyvan
Kode di atas menampilkan baris yang duplikat berdasarkan kolom Name dan Marks, serta menghitung jumlah kemunculan (cnt). Baris-baris yang memiliki nilai cnt lebih dari 1 dianggap sebagai duplikat.
4. Menghapus Baris Duplikat dengan ROW_NUMBER()
Metode lain yang lebih canggih adalah dengan menggunakan fungsi ROW_NUMBER() untuk mengidentifikasi baris duplikat berdasarkan urutan tertentu. Berikut adalah contohnya:
Source by Reyvan
Pada kode di atas:
ROW_NUMBER() digunakan untuk memberi nomor pada setiap baris berdasarkan kombinasi kolom Name dan Marks.
Baris yang memiliki row_num lebih dari 1 akan dihapus karena dianggap duplikat.
Baca juga: Catat! Ini 3 Keuntungan Belajar SQL dalam Mengolah Data
5. Verifikasi Hasil
Setelah menghapus baris duplikat, pengguna dapat menjalankan perintah berikut untuk memastikan bahwa tidak ada data yang duplikat:
Source by Reyvan
Duplikasi data dalam tabel SQL dapat menyebabkan berbagai masalah pada sistem dan aplikasi. Oleh karena itu, penting untuk memastikan bahwa data yang disimpan konsisten dengan menggunakan unique constraints dan teknik pembersihan data seperti yang dibahas di atas.
Dengan pemahaman yang lebih baik tentang cara mengidentifikasi dan menghapus baris duplikat, pengguna dapat menjaga integritas data di basis data SQL Anda dan memastikan keakuratan pelaporan serta analisis data.
Kamu ingin menguasai pengelolaan database menggunakan MySQL dan keahlian lainnya sesuai kebutuhan di industri, tapi bingung harus mulai belajarnya bagaimana? Jangan khawatir! Segera Sign Up ke DQLab! Di sini, kamu bisa belajar dari dasar hingga tingkat lanjut dengan materi dan tools yang relevan dengan kebutuhan industri, bahkan tanpa latar belakang IT. Belajar kapan saja dan di mana saja dengan fleksibilitas penuh, serta didukung oleh fitur eksklusif Ask AI Chatbot 24 jam, lho!
DQLab juga menyediakan modul berkualitas yang disusun oleh para ahli dengan studi kasus yang bisa membantu kamu memahami cara memecahkan masalah nyata dari berbagai industri. Tak hanya itu, metode pembelajaran HERO (Hands-On, Experiential Learning & Outcome-based) yang diterapkan, ramah untuk pemula dan telah terbukti mencetak talenta-talenta unggulan yang sukses berkarier di bidang data.
Jadi, tunggu apa lagi? Segera persiapkan diri untuk menguasai keterampilan di bidang data dan teknologi dengan subscribe modul premium, atau ikuti Bootcamp Data Analyst with SQL and Python sekarang juga!
Penulis: Reyvan Maulid