Buat Akun DQLab & Akses Kelas Data Science Python, R, SQL, Excel GRATIS

Yuk Kenali 4 Asumsi Statistik Parametrik Sebelum Mengolah Data

Belajar Data Science di Rumah 02-Desember-2021
https://dqlab.id/files/dqlab/cache/eeeeebe11959f36f2328352911f41f2d_x_Thumbnail800.png

Secara harfiah, statistik parametrik adalah metode atau teknik yang bertujuan untuk menguji asumsi mengenai parameter pada kumpulan data dari distribusi populasi data tersebut. Kebalikan dari statistik parametrik adalah statistik non parametrik. Pada umumnya, uji statistik parametrik mengacu pada tes yang mengasumsikan suatu populasi berdistribusi normal. Selain itu, jika kita menggunakan metode statistik parametrik berarti kita mengasumsikan bahwa data berasal dari skala interval yang sama.

Data berdistribusi normal ditandai dengan kurva distribusi yang membentuk lonceng sempurna dimana kurva tersebut dibagi menjadi dua bagian yang sama besar dan titik tengahnya merupakan ukuran central tendency berupa mean atau rata-rata. Metode statistik parametrik tidak bisa digunakan secara sembarangan karena ada asumsi-asumsi pada data yang harus terpenuhi. Tujuan dari pemenuhan asumsi ini adalah sebagai syarat bahwa data bisa diolah menggunakan suatu metode statistik parametrik sehingga hasilnya lebih optimal. Pertanyaannya, apa saja asumsi-asumsi tersebut? Pada artikel kali ini kita akan membahasnya. Jadi tunggu apa lagi? Let"s get started!


1. Asumsi Normalitas

Statistik parametrik mengasumsikan bahwa setiap kelompok berdistribusi normal. Jika ukuran kumpulan data terlalu kecil (kurang dari 30) maka kita dapat menggunakan uji Shapiro-Wilk untuk menentukan apakah data berdistribusi normal atau tidak. Jika nilai p-value kurang dari tingkat signifikansi tertentu, maka data tersebut kemungkinan tidak berdistribusi normal. Namun, jika ukuran data cukup besar akan lebih baik jika menggunakan Q-Q plot untuk memeriksa distribusi normal data secara visual. Jika titik-titik pada plot berada di sekitar garis diagonal pada Q-Q plot, maka kemungkinan besar dataset mengikuti distribusi normal.


Baca juga : Pengolahan Data Statistik Parametrik dan Non-Parametrik


2. Varian Sama

Statistik parametrik mengasumsikan bahwa varian setiap kumpulan data adalah sama. Secara visual, kita dapat memeriksa apakah asumsi ini terpenuhi atau tidak dengan membuat boxplot berdampingan untuk setiap kelompok data. Boxplot-boxplot yang berjejer ini bisa digunakan untuk mengidentifikasi apakah ukuran setiap kumpulan kelompok sama atau tidak. Cara lain untuk memeriksa asumsi ini adalah jika selisih rasio varians terbesar dan terkecil kurang dari 4, maka kita dapat mengasumsikan bahwa varian kumpulan data tersebut sama.


3. Independensi

Statistik parametrik mengasumsikan bahwa pengamatan di setiap kelompok tidak tergantung pada pengamatan kelompok lainnya. Cara mudah untuk memeriksa asumsi ini adalah dengan memverifikasi bahwa data yang dikumpulkan harus menggunakan metode probability sampling. Probability sampling adalah sebuah metode pengambilan sampel dimana setiap anggota dalam suatu populasi memiliki peluang yang sama untuk terpilih. Beberapa metode yang biasa digunakan adalah simple random sampling, stratified random sampling, cluster random sampling, dan systematic random sampling.


4. Outlier

Statistik parametrik mengasumsikan bahwa tidak ada outlier ekstrim dalam kumpulan data yang dapat mempengaruhi hasil tes. Salah satu cara untuk memeriksa outlier atau pencilan secara visual adalah dengan membuat boxplot untuk setiap kumpulan data dan melihat apakah ada outlier yang jelas jauh dari kumpulan data lainnya. Selain secara visual, ada juga cara lain untuk memeriksa outlier yaitu menggunakan Grubbs" test.


Baca juga : Yuk Pelajari Macam-Macam Metode Analisis Statistika


5. Belajar Metode Analisis Data Beserta Tools-nya Bersama DQLab

Saat ini produksi data meningkat sangat pesat bahkan dalam satu hari ratusan ribu byte data diproduksi dan ratusan byte data digunakan di berbagai bidang industri. Data yang digunakan merupakan data berukuran besar yang tidak bisa diolah menggunakan tools sembarangan. Salah satu tools yang banyak digunakan untuk mengolah big data adalah bahasa pemrograman R dan Python. Bahasa pemrograman multifungsi ini tidak hanya digunakan untuk mengolah data, tetapi juga bisa digunakan untuk tujuan lain seperti apps development, web development, bahkan membuat robot. Yuk belajar R dan Python bersama DQLab! Klik button di bawah ini untuk mengakses berbagai modul dari DQLab dan nikmati belajar mengolah data menggunakan tipe data yang banyak digunakan di dunia industri. 


Penulis: Galuh Nurvinda K

Editor: Annissa Widya Davita

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun


Atau

Sudah punya akun? Login