Pengetahuan Dasar Statistik Inferensial dalam Data Science
Statistika inferensial adalah statistik yang biasa digunakan untuk membandingkan perbedaan perlakuan di beberapa grup atau kelompok. Metode ini akan cocok digunakan bila sampel diambil dari populasi yang jelas dan teknik pengambilan sampel dari populasi itu sendiri dilakukan secara random. Sample tersebut akan ditempatkan pada beberapa kelompok yang berbeda dan setiap kelompok mendapatkan perlakuan yang berbeda. Hasil dari setiap kelompok akan diaplikasikan untuk sampel yang lebih besar.
Statistika inferensial juga sering disebut statistik probabilitas dimana kita bisa menjelaskan kesimpulan berdasarkan data sampel yang kebenarannya bersifat peluang (probability). Statistik inferensial terdiri atas dua jenis yaitu statistik parametrik dan statistik nonparametrik. Statistik parametrik digunakan untuk menguji parameter populasi melalui statistik, atau menguji ukuran populasi melalui data sampel. Sedangkan, statistik nonparametrik tidak menguji parameter populasi, tetapi menguji distribusi. Penggunaan statistik parametrik dan statistik non parametrik tergantung pada asumsi dan jenis data yang akan dianalisis.
Nah untuk itu, kali ini kita akan lebih banyak membahas kedua jenis statistik inferensial ini. Mulai dari definisinya, karakteristiknya, hingga contoh uji statistik yang dimiliki oleh kedua statistik berikut ini. Selamat membaca!
1. Statistika Parametrik
Statistika parametrik merupakan bagian dari statistika inferensial yang mempertimbangkan nilai dari satu atau lebih parameter populasi. Statistik parametrik memiliki keterbatasan penggunaan jenis data yaitu minimal menggunakan data yang berskala interval dan rasio. Selain itu, kita dapat menggunakan statistik parametrik apabila asumsi spesifik mengenai bentuk distribusi populasi yang diamati berdistribusi normal.
Statistik parametrik merupakan yang uji statistik yang paling dianjurkan, karena memiliki banyak kelebihan dari segi hasil namun sulit untuk dilakukan. Akan tetapi, terdapat beberapa syarat yang harus dipenuhi agar data dapat diuji menggunakan metode ini. Tujuannya adalah agar hasil penelitian benar-benar mendekati karakter dari populasinya.
Baca juga : Pengolahan Data Statistik Parametrik dan Non-Parametrik
2. Statistika Nonparametrik
Statistika nonparametrik merupakan bagian dari statistika inferensial yang tidak memperhatikan adanya asumsi-asumsi mengenai sebaran data populasinya (sebaran data belum diketahui dan tidak perlu terdistribusi normal).
Istilah lain yang sering digunakan untuk statistik nonparametrik adalah statistik bebas distribusi (Distribution Free Statistics) dan uji bebas asumsi (Assumption-Free Test). Umumnya data yang digunakan dalam metode ini tidak terlalu besar jumlahnya, sekitar kurang dari 30 data. Dalam statistika nonparametrik, data yang dibutuhkan lebih banyak yang berskala ukur nominal atau ordinal.
3. Contoh Uji Statistik Parametrik: Analisis Korelasi
Analisis Korelasi pada uji statistik parametrik digunakan untuk menguji hubungan antar variabel. Hubungan yang dimaksud disini adalah keeratan hubungan antara dua variabel atau lebih tanpa memperhatikan ada tidaknya hubungan kausal di antara variabel-variabel yang dianalisis.
Analisis korelasi yang digunakan untuk menguji data yang bersifat parametrik sering juga disebut dengan analisis Pearson. Metode analisis korelasi Pearson merupakan metode pengujian yang pada dasarnya dilakukan terhadap suatu variabel pengukuran yang menyajikan data-data yang bersifat kuantitatif. Metode Pearson ini dapat ditemukan pada aplikasi Minitab, baik Minitab 14 maupun Minitab 15.
4. Contoh Uji Statistik Non Parametrik: Chi Square Test
Uji Chi Square pada uji statistik nonparametrik atau dikenal juga sebagai uji Kai Kuadrat, adalah salah satu cara yang digunakan untuk menyampaikan atau menunjukkan keberadaan hubungan (ada atau tidaknya) antara variabel yang diteliti. Misalkan sebagai peneliti, kita hendak melakukan uji terhadap perilaku mahasiswa.
Karakter yang akan diuji adalah perilaku mahasiswa yang dikategorikan menjadi dua kategori. Kategori pertama yaitu mahasiswa yang mendukung program kampus dan kedua adalah yang acuh terhadap program kampus. Kondisi tersebut memungkinkan kita untuk melakukan uji hipotesis mengenai perbedaan perilaku mahasiswa tersebut dilihat dari frekuensinya.
Baca juga : Yuk Pelajari Macam-Macam Metode Analisis Statistika
5. Belajar Statistik Inferensial Menggunakan Python dan R Bersama DQLab
Secara garis besar dalam Big Data akan ditemukan sekumpulan data dalam jumlah yang sangat banyak untuk dapat diolah dengan tepat dan menghasilkan informasi yang aktual untuk kebutuhan bisnis. Untuk bisa menemukan cara yang tepat dalam mengolah data, seseorang perlu memiliki kemampuan dan ketangkasan dalam ilmu Data Science.
Belajar metode statistik merupakan langkah awal yang tepat untuk memulai karir sebagai seorang Data Scientist. Bagi kamu pemula yang ingin belajar seputar dasar statistik dengan pemrograman Python atau R tetapi bingung harus mulai belajar dari mana, DQLab adalah pilihan yang tepat! Dengan materi-materi yang ditawarkan sangat lengkap dan sesuai dengan kebutuhan industri, disusun oleh mentor-mentor yang kompeten di bidangnya dari perusahaan unicorn dan startup.
Jadi tunggu apalagi? Buruan sign up di DQLab.id sekarang juga!
Penulis: Salsabila MR
Editor: Annissa Widya Davita