PROMO SPESIAL 12.12
Belajar Data Science Bersertifikat, 6 Bulan hanya 120K!
1 Hari 13 Jam 53 Menit 25 Detik

Intip 5 Cara Hapus Duplikasi di SQL, Catat Sekarang!

Belajar Data Science di Rumah 19-November-2024
https://dqlab.id/files/dqlab/cache/longtail-senin-06-2024-11-19-210457_x_Thumbnail800.jpg

Duplikasi data di dalam tabel SQL bisa menjadi masalah serius yang mengakibatkan inkonsistensi data. Masalah ini dapat menyebabkan laporan yang tidak akurat, pesanan yang diproses beberapa kali, dan berbagai gangguan lainnya. Idealnya, masalah ini bisa dicegah dengan menggunakan primary key, tetapi dalam beberapa kasus di mana aturan ini tidak diterapkan atau terjadi pengecualian, duplikasi menjadi lebih sulit diatasi.


Salah satu praktik terbaik untuk mencegah risiko duplikasi pada bahasa pemrograman SQL adalah menggunakan keys dan constraints yang relevan. Namun, jika tabel sudah terlanjur berisi data duplikat, maka diperlukan prosedur khusus untuk membersihkannya.


Dalam artikel ini, kita akan membahas beberapa metode untuk menghapus baris duplikat di SQL, baik di tabel yang memiliki unique constraints maupun yang tidak. Simak penjelasannya yuk sahabat DQLab!


1. Membuat dan Memasukkan Data ke dalam Tabel

Salah satu metode yang umum digunakan untuk menghapus data duplikat adalah dengan memanfaatkan klausa GROUP BY dan HAVING. Berikut adalah contoh implementasi untuk membersihkan data duplikat dalam sebuah tabel. Pertama-tama, kita perlu membuat tabel dengan data duplikat untuk dijadikan contoh:

SQL

Source by Reyvan


Baca juga: Bootcamp Data Analyst with SQL and Python


2. Menampilkan Data dan Mengidentifikasi Baris Duplikat

Setelah data dimasukkan, kamu dapat menggunakan perintah berikut untuk melihat semua data dalam tabel:

SQL

Source by Reyvan


Output:

SQL

Source by Reyvan


Dari output di atas, terlihat bahwa beberapa baris memiliki data yang sama (duplikat)


3. Menghapus Duplikasi Menggunakan GROUP BY dan HAVING

Kita dapat menggunakan klausa GROUP BY bersama dengan HAVING untuk mengidentifikasi dan menghapus baris yang duplikat:

SQL

Source by Reyvan


Output:

SQL

Source by Reyvan


Kode di atas menampilkan baris yang duplikat berdasarkan kolom Name dan Marks, serta menghitung jumlah kemunculan (cnt). Baris-baris yang memiliki nilai cnt lebih dari 1 dianggap sebagai duplikat.


4. Menghapus Baris Duplikat dengan ROW_NUMBER()

Metode lain yang lebih canggih adalah dengan menggunakan fungsi ROW_NUMBER() untuk mengidentifikasi baris duplikat berdasarkan urutan tertentu. Berikut adalah contohnya:

SQL

Source by Reyvan


Pada kode di atas:

  • ROW_NUMBER() digunakan untuk memberi nomor pada setiap baris berdasarkan kombinasi kolom Name dan Marks.

  • Baris yang memiliki row_num lebih dari 1 akan dihapus karena dianggap duplikat.


Baca juga: Catat! Ini 3 Keuntungan Belajar SQL dalam Mengolah Data


5. Verifikasi Hasil

Setelah menghapus baris duplikat, pengguna dapat menjalankan perintah berikut untuk memastikan bahwa tidak ada data yang duplikat:

SQL

Source by Reyvan



Duplikasi data dalam tabel SQL dapat menyebabkan berbagai masalah pada sistem dan aplikasi. Oleh karena itu, penting untuk memastikan bahwa data yang disimpan konsisten dengan menggunakan unique constraints dan teknik pembersihan data seperti yang dibahas di atas.


Dengan pemahaman yang lebih baik tentang cara mengidentifikasi dan menghapus baris duplikat, pengguna dapat menjaga integritas data di basis data SQL Anda dan memastikan keakuratan pelaporan serta analisis data.


Kamu ingin menguasai pengelolaan database menggunakan MySQL dan keahlian lainnya sesuai kebutuhan di industri, tapi bingung harus mulai belajarnya bagaimana? Jangan khawatir! Segera Sign Up ke DQLab! Di sini, kamu bisa belajar dari dasar hingga tingkat lanjut dengan materi dan tools yang relevan dengan kebutuhan industri, bahkan tanpa latar belakang IT. Belajar kapan saja dan di mana saja dengan fleksibilitas penuh, serta didukung oleh fitur eksklusif Ask AI Chatbot 24 jam, lho!


DQLab juga menyediakan modul berkualitas yang disusun oleh para ahli dengan studi kasus yang bisa membantu kamu memahami cara memecahkan masalah nyata dari berbagai industri. Tak hanya itu, metode pembelajaran HERO (Hands-On, Experiential Learning & Outcome-based) yang diterapkan, ramah untuk pemula dan telah terbukti mencetak talenta-talenta unggulan yang sukses berkarier di bidang data.


Jadi, tunggu apa lagi? Segera persiapkan diri untuk menguasai keterampilan di bidang data dan teknologi dengan subscribe modul premium, atau ikuti Bootcamp Data Analyst with SQL and Python sekarang juga!


Penulis: Reyvan Maulid


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login