Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Teknik Analisis Data CRISP-DM dalam Data Mining

Belajar Data Science di Rumah 07-November-2022
https://dqlab.id/files/dqlab/cache/a9b743f4dc53c55a88a5cac61b8b1b76_x_Thumbnail800.jpg

Dalam data mining, ada beberapa model teknik analisis data yang bisa diterapkan oleh praktisi data. Salah satunya adalah model CRISP-DM. Teknik analisis data CRISP-DM atau Cross-Industry Standard Process for Data Mining merupakan standardisasi data mining yang disusun oleh lima perusahaan yaitu Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation, dan OHRA. 


Kemudian dikembangkan dalam berbagai workshops (antara 1997-1999). Lebih dari 300 organisasi berkontribusi dalam proses modelling dan akhirnya model CRISP-DM mulai dipublikasikan pada tahun 1999.


Berdasarkan jajak pendapat yang dilakukan oleh situs datascience-pm, CRISP-DM masuk di urutan pertama dengan model data science yang seringkali digunakan oleh praktisi data dengan perolehan nilai sebanyak 49 persen. Tidak heran apabila banyak hasil penelitian yang mengungkapkan bahwa CRISP-DM masih menjadi salah satu teknik analisis data terbaik.


Mariscal, Marba dan Fernandez menyatakan CRISP-DM sebagai defacto menjadi standar untuk pengembangan proyek data mining dan knowledge discovery karena paling banyak digunakan dalam pengembangan data mining.


Hasil survei “Penggunaan Metodologi dalam Proyek Data Mining”, memperlihatkan pengguna CRISP-DM di tahun 2002 mencapai 51%, kemudian menurun menuju 41% di tahun 2004. 


Meskipun persentasi penggunaan CRISP-DM menurun 10%, jumlah pengguna metodologi ini masih terbilang lebih banyak daripada pengguna metodologi lain. CRISP-DM memiliki 6 tahapan dalam melakukan analisis data mining.


Mulai dari Business Understanding, Data Understanding, Data Preparation, Modelling, Evaluation, dan Deployment. Nah, penasaran kan sahabat DQLab bagaimana penjelasan dari masing-masing tahapan CRISP-DM? Simak selengkapnya melalui artikel berikut ini!


1. Business Understanding

Kita masuk ke dalam tahap pertama dari model CRISP-DM. Tahapan yang pertama ini bisa dibilang sangat vital karena praktisi data butuh pijakan dasar untuk melakukan analisis data. Salah satunya adalah business knowledge ataupun pengetahuan dari segi objek bisnis.


Dalam tahap ini, praktisi data akan mulai belajar bagaimana membangun atau mendapatkan data, bagaimana untuk mencocokkan tujuan permodelan untuk tujuan bisnis sehingga model terbaik dapat dibangun.


Teknik Analisis Data


Adapun kegiatan dalam business understanding ini mulai dari menentukan tujuan, menentukan fenomena dan persyaratan dengan jelas secara keseluruhan, menerjemahkan tujuan tersebut serta menentukan pembatasan dalam perumusan masalah yang diaplikasikan dalam data mining dan selanjutnya mempersiapkan strategi awal untuk mencapai tujuan tersebut.


Baca juga : Langkah-Langkah Menggunakan Teknik Analisis Data Kualitatif 


2. Data Understanding

Tahap kedua adalah data understanding. Secara garis besar, data understanding dipakai untuk memeriksa data sehingga dapat mengidentifikasi masalah pada data yang kita dapatkan. Tahapan ini memberikan pondasi analitik untuk sebuah penelitian dengan membuat ringkasan (summary) dan mengidentifikasi potensi masalah dalam data.


Tahap ini juga harus dilakukan secara cermat dan tidak terburu-buru oleh praktisi data. Contoh visualisasi data yang dilakukan oleh praktisi data. Biasanya kalau tidak berhati-hati maka insight atau kesimpulan juga tidak bisa langsung ditemukan.


Teknik Analisis Data


Apalagi kalau tidak dihubungkan dengan summary datanya. Apabila praktisi data sedang mengalami masalah ini maka ada mengganggu pada tahap modelling. Maka dari itu, praktisi data perlu jeli juga untuk mengamati tahapan dalam membuat visualisasi data dan segera menemukan insight dari data yang akan atau sudah kita visualisasikan.


Ringkasan dari data dapat berguna untuk mengonfirmasi apakah data terdistribusi seperti yang diharapkan. Biasanya permasalahan dalam data yang sering kali ditemui oleh praktisi data adalah nilai-nilai yang hilang, outlier, berdistribusi spike, berdistribusi bimodal, missing value dan lain-lain.


3. Data Preparation

Lanjut ada data preparation. Secara garis besar, data preparation di kalangan data mining dipakai untuk memperbaiki masalah dalam data, kemudian membuat variabel turunan.


Tahap data preparation sangat jelas untuk membutuhkan pemikiran yang cukup matang dan usaha yang cukup tinggi untuk memastikan data tepat sesuai dengan algoritma yang dipakai.


Teknik Analisis Data


Proses data preparasi merupakan proses data treatment menuju model berkualitas yang berguna. Tahapan ini adalah yang paling menguras resources dari tim analisis. Model yang baik dan akurat berawal dari data preparasi yang baik.


Beberapa hal yang umum dilakukan pada tahapan ini adalah:

  • Melakukan pengecekan kembali pada kebenaran data

    Pengecekan pada data perlu di desain bertingkat sehingga akuntabilitas terjaga. Pengecekan juga diperlukan terhadap konsistensi inputing data. System yang baik dalam pengumpulan data antara lain menggunakan default akan dapat menjaga konsistensi data.

  • Mengelola data outlier

    Data Outlier perlu dikelola dengan baik. Data Outlier dapat berupa Univariate Outlier, dan Multivariate Outlier serta dapat berada pada variable dependent maupun variable independent.


    Data Mining untuk tujuan generalisir akan terpengaruh dengan dengan Data Outlier sehingga perlu dinetralisir. Sebelum melakukan treatment atas data Outlier alangkah baiknya terlebih dahulu dilakukan pengecekan terhadap pengambilan dan pengisian data.

  • Memberlakukan data missing dan data inkonsistensi

    Perlakuan terhadap data missing harus match dengan tujuan dari data mining itu sendiri. Misalkan data missing yang di isi dengan average mungkin masih dapat diterima untuk tujuan prediction dan forecasting, namun untuk klastering bisa jadi akan mengarahkan pada kelompok yang kurang tepat. Sebaliknya menggunakan data yang sering muncul untuk mengisi missing data untuk multi variable data mining akan berpengaruh pada hasil untuk tujuan prediction dan forecasting


4. Modelling

Tahap keempat yaitu Modelling. Secara garis besar untuk membuat model prediktif atau deskriptif. Pada tahap ini dilakukan metode statistika dan Machine Learning untuk penentuan terhadap teknik data mining, alat bantu data mining, dan algoritma data mining yang akan diterapkan.


Lalu selanjutnya adalah melakukan penerapan teknik dan algoritma data mining tersebut kepada data dengan bantuan software. 


Teknik Analisis Data


Jika diperlukan penyesuaian data terhadap teknik data mining tertentu, dapat kembali ke tahap data preparation. Beberapa teknik modeling yang biasa dilakukan dan dipakai oleh praktisi data antara lain classification, scoring, ranking, clustering, finding relation, dan characterization.


5.  Evaluation

Tahap kelima yaitu Evaluation. Setelah didapatkan sebuah atau beberapa model sehingga dilakukan penilaian terkait kualitas dan efektifitas-nya. 

Teknik Analisis Data


Kemudian ditentukan model seperti apa yang digunakan agar sesuai dengan objective pada fase 1 hingga diambil sebuah keputusan penggunaan dari hasil data mining.


Baca juga : Contoh Teknik Analisis Data Dalam Penelitian Kuantitatif


6.  Deployment

Tahap terakhir dalam model CRISP-DM adalah Deployment. Perencanaan untuk Deployment dimulai selama Business Understanding dan harus menggabungkan tidak hanya bagaimana untuk menghasilkan nilai model, tetapi juga bagaimana mengkonversi skor keputusan, dan bagaimana untuk menggabungkan keputusan dalam sistem operasional. 

Teknik Analisis Data


Pada akhirnya, rencana sistem Deployment mengakui bahwa tidak ada model yang statis. Model tersebut dibangun dari data yang diwakili data pada waktu tertentu, sehingga perubahan waktu dapat menyebabkan berubahnya karakteristik data. Modelpun harus dipantau dan mungkin diganti dengan model yang sudah diperbaiki.


Teknik analisis data adalah bagian penting dalam proses penelitian yang benar-benar perlu diperhatikan dalam proses pemilihannya. Dengan memilih teknik analisis data yang sesuai maka hasil analisis akan sesuai dengan harapan. DQLab merupakan salah satu solusi bagi kalian yang ingin belajar teknik analisis data dari dasar. 


DQLab menyediakan materi secara teori maupun praktek. Selain itu terdapat berbagai modul, serta ebook yang membantu memudahkan proses belajar terutama bagi pemula. Cara bergabungnya sangat mudah. Langsung saja sign up di DQLab.id/signup dan nikmati belajar data science DQLab


Penulis: Reyvan Maulid

 


Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login