Kenali Ukuran Pemusatan dan Keragaman dalam Analisis Statistik Deskriptif

Belajar Data Science di Rumah 14-September-2021

https://dqlab.id/files/dqlab/cache/280218a7f0630aa741f0fea648c95d5e_x_Thumbnail800.jpg

Statistik deskriptif adalah bagian dari analisis statistik yang paling mendasar dalam menyajikan hasil penelitian. Statistik deskriptif menjadi bagian terpenting bagi peneliti yang dekat dengan data untuk melakukan penyajian data dalam hasil penelitiannya Secara definisi, analisis statistik deskriptif adalah analisis statistik yang memberikan gambaran secara umum mengenai karakteristik dari masing-masing variabel penelitian yang dilihat dari nilai rata-rata (mean), maximum, dan minimum.

Tidak hanya itu juga, Statistik deskriptif merupakan proses analisis statistik yang fokus kepada manajemen, penyajian, dan klasifikasi data. Dengan proses ini, data yang disajikan akan menjadi lebih menarik lebih mudah dipahami, dan mampu memberikan makna lebih bagi pengguna data. Salah satu penyajian data yang cukup menarik yaitu dengan menggunakan visualisasi data.

Visualisasi data merupakan bentuk penyajian statistika deskriptif yang bertujuan untuk menyajikan data dalam bentuk visual atau grafik sehingga lebih menarik dan lebih mudah dipahami. Dalam visualisasi ini, kita bisa menggambarkan data dalam beragam bentuk seperti menggunakan tabel, diagram batang (bar chart), diagram garis (line chart), diagram kue (pie chart), pemetaan wilayah, dll yang tentunya semakin berkembang sesuai dengan kemajuan teknologi.

Berbicara analisis statistik deskriptif, dikenal dengan dua istilah yaitu ukuran pemusatan dan ukuran keragaman. Ukuran pemusatan adalah metode paling lazim digunakan dalam analisis statistik deskriptif. Metode ini berfokus untuk menggambarkan kondisi data di titik pusat. Secara umum, kita bisa melihat bagaimana kondisi data dengan melihat dimana letak pusat data tersebut. Biasanya, pusat data sendiri akan berada pada nilai tengah, meskipun tidak selalu demikian.

Mari kita cari tahu lebih dalam yuk sahabat DQLab soal ukuran keragaman dan pemusatan data dalam analisis statistik pada module baru DQLab dengan judul œStatistik Dasar untuk Data Science dengan Python & Scikit - Ukuran Data : Pemusatan".

Dengan mempelajari module ini sahabat DQ akan menguasai beberapa kompetensi, diantaranya adalah :

Mampu memahami apa dan kenapa diperlukan ukuran pemusatan data (measures of central tendency).
Mampu memahami dan membedakan ukuran rata-rata (mean), median, dan modus (mode) sebagai ukuran pemusatan data.
Mampu melakukan perhitungan mean, median, dan mode pada Python 3.
Mampu memahami bahwa perhitungan ukuran tendensi sentral seperti mean belum cukup untuk menjelaskan data dengan menggunakan dataset Anscombe"s quartet, dimana walaupun data berbeda, tetapi ukuran tendensi sentral tetap sama. Dengan demikian, harus didampingi dengan visualisasi.

Ingin tahu pembahasan modulenya seputar apa saja? Yuk, simak artikel ini sampai habis!

1. Apa itu Ukuran Pemusatan Data

Ukuran pemusatan data (measures of central tendency) adalah nilai yang digunakan untuk menggambarkan sekumpulan data dengan mengidentifikasikan pusat dari kumpulan data tersebut. Ukuran pemusatan data yang paling sering digunakan adalah rata-rata (mean) , median, dan modus (mode).

Untuk lebih jelasnya simak video dibawah ini yuk!

2. Apa Itu Ukuran Keragaman Data

Lain halnya dengan ukuran keragaman dimana ukuran keragaman merupakan ukuran untuk menyajikan bagaimana sebaran dari data tersebut. Ukuran keragaman menunjukkan bagaimana kondisi sebuah data menyebar di kelompok data yang kita miliki.

Hal ini memungkinkan kita untuk menganalisis seberapa jauh data-data tersebut tersebar dari ukuran pemusatannya. Ukuran keragaman digambarkan melalui perhitungan range, kuartil, simpangan kuartil, varians dan standar deviasi.

3. Mean

Mean adalah nilai tengah pada suatu kelompok data yang diperoleh dari penjumlahan keseluruhan data pada suatu kelompok dibagi dengan banyaknya data. Terdapat dua nilai tengah yang biasanya kita ketahui yaitu nilai tengah untuk populasi dan nilai tengah untuk sampel. Nilai tengah biasanya juga disebut mean atau rata-rata. Mean pada dasarnya adalah model kumpulan data kita.

Namun, kita akan melihat bahwa mean seringkali bukan salah satu nilai aktual yang kita amati dalam kumpulan data yang kita miliki. Namun, salah satu properti pentingnya adalah meminimalkan kesalahan dalam prediksi salah satu nilai dalam kumpulan data. Artinya, ini adalah nilai yang menghasilkan jumlah kesalahan terendah dari semua nilai lain dalam kumpulan data.

Sifat penting mean adalah bahwa ia menyertakan setiap nilai dalam kumpulan data kita sebagai bagian dari penghitungan. Selain itu, mean adalah satu-satunya ukuran tendensi sentral dimana jumlah deviasi setiap nilai dari mean selalu nol.

Rumus dari Mean

Rata-rata (Mean) adalah jumlah dari seluruh nilai pada suatu set data dibagi dengan banyaknya data. Apabila kita memiliki data sejumlah n dan data tersebut memiliki nilai x1, x2, x3, ..., xn maka rata-rata dari data tersebut dapat dihitung dengan rumus berikut

 x =x1+ x2 + x3 + ... + xnn

Untuk lebih jelasnya terkait dengan bagaimana cara menghitung mean atau rata-rata, kita langsung mulai kepoin yuk contohnya sahabat DQLab!

Contoh: Seorang guru ingin menghitung nilai rata-rata ujian di kelasnya. Berikut merupakan kumpulan nilai dari 11 siswa

Nilai Siswa	1	2	3	4	5	6	7	8	9	10	11
Nilai Siswa	50	70	90	60	50	65	100	70	70	55	90

Rata-rata dari data tersebut adalah:

x = 50+70+90+60+50+65+100+70+70+55+9011=70

Dari hasil tersebut dapat disimpulkan bahwa nilai rata-rata dari 11 siswa adalah 70. Cara menghitungnya adalah kamu tinggal menjumlahkan semua data yang ada, lalu tinggal dibagi dengan banyaknya data.

4. Median

Median adalah suatu nilai yang terletak di tengah kelompok data yang telah diurutkan dari nilai terkecil sampai terbesar atau sebaliknya. Karena suatu kelompok terbagi atas dua jenis yaitu kelompok ganjil dan kelompok genap maka terdapat dua solusi menentukan median yang dapat digunakan untuk kasus tersebut.

Apabila median adalah nilai tengah dalam daftar tabel angka yang berurutan naik atau turun, dan bisa lebih deskriptif daripada mean atau nilai rata- rata. Median seringkali digunakan sebagai kebalikan dari mean saat terdapat pencilan dalam urutan yang mungkin mendistorsi nilai mean. Median suatu urutan data bisa lebih sedikit dipengaruhi oleh pencilan daripada mean atau rata-rata.

Terlebih median sendiri adalah nilai tengah maka kita harus pastikan dahulu kelompok datanya. Apakah ganjil ataupun genap. Nah, untuk lebih jelasnya mari kita langsung masuk ke contoh perhitungannya aja kali ya.

Berikut merupakan nilai dari 11 siswa pada contoh sebelumnya.

Nilai Siswa	1	2	3	4	5	6	7	8	9	10	11
Nilai Siswa	50	70	90	60	50	65	100	70	70	55	90

Berapakah nilai median?

Nah, caranya gampang banget. Sebelum kamu mencari nilai median, langkah pertama adalah dengan mengurutkan nilainya terlebih dahulu. Berikut adalah data yang sudah diurutkan.

100

Setelah diurutkan, baru kita cari nilai tengahnya. Kebetulan saja data diatas adalah data ganjil. Jadi kita dengan mudah bisa menebak bahwa nilai mediannya adalah 70 aias data keenam.

loh Itu kan datanya berjumlah ganjil. Kalau data berjumlah genap bagaimana untuk menentukan nilai tengahnya?

Gampang banget dong! Pada data berjumlah genap, kita dapat menentukan nilai median dengan menambahkan dua data di tengah dan menghitung rata-ratanya,

100

Nilai median yang didapatkan dengan menjumlahkan nilai pada data kelima dan keenam, kemudian dibagi dua. Maka, Median dari data tersebut adalah (65+70) / 2 = 67,5,

5. Modus

Modus (mode) merupakan ukuran pemusatan dengan menggunakan data yang paling sering muncul pada kumpulan data.

Contoh : Terdapat data 11, 10, 10, 20, 25, 10, 12, 11, 25

Dari data tersebut kita dapat menghitung frekuensi kemunculan dari setiap nilai

10 -> muncul 3 kali

11 -> muncul 2 kali

12 -> muncul 1 kali

20 -> muncul 1 kali

25 -> muncul 2 kali

Dari sini kita dapat mengetahui modus dari data di atas adalah 10 karena muncul paling banyak yaitu sebanyak 3 kali

6. Varians

Varians merupakan ukuran seberapa jauh menyebar dari nilai rata-ratanya. Semakin kecil nilai varians, semakin dekat sebaran data dengan rata-rata. Semakin besar nilai varian, semakin besar sebaran data terhadap nilai rata-ratanya. Varians adalah salah satu ukuran dispersi atau ukuran variasi. Varians dapat menggambarkan bagaimana berpencarnya suatu data kuantitatif. Varians diberi simbol Ïƒ2 (baca: sigma kuadrat) untuk populasi dan untuk s2 sampel.

Varian memiliki peran sentral dalam statistik, dimana beberapa ide yang menggunakannya antara lain statistik deskriptif, inferensi statistik, pengujian hipotesis, goodness of fit, dan pengambilan sampel. Varian adalah alat penting dalam sains, di mana analisis statistik data biasa dilakukan.

Varian adalah kuadrat dari simpangan baku atau standar deviasi, momen pusat kedua dari sebuah distribusi, dan kovariansi variabel acak dengan dirinya sendiri, dan sering kali diwakili Ïƒ2, s2, Var(X).

7. Standar Deviasi

Standar deviasi merupakan ukuran lain dari sebaran data terhadap rata-ratanya. Bila anda menggunakan varians, maka nilai yang anda dapatkan sangatlah besar. Nilai ini tidak mampu menggambarkan bagaimana sebaran data yang sebenarnya terhadap rata-rata.

Untuk mendapatkan nilai yang lebih mudah diinterpretasikan, standar deviasi adalah ukuran yang lebih tepat. Standar deviasi menghasilkan nilai yang lebih kecil dan mampu menjelaskan bagaimana sebaran data terhadap rata-rata. Standar deviasi disebut juga dengan simpangan baku

Statistik memegang peranan yang penting dalam penelitian terutama metode penelitian kuantitatif. Statistik berperan baik dalam penyusunan model, perumusan hipotesis, dalam pengembangan alat dan instrumen pengumpulan data, dalam penyusunan desain penelitian, dalam penentuan sampel dan dalam analisis data. Penentuan metode statistik yang tepat akan menghasilkan ketepatan dan akurasi prediksi yang tepat pula.

Mempelajari data science bukan hal yang sulit, tetapi juga tidak bisa disepelekan. Sebab, dalam praktiknya sering kali terjadi trial and error. Oleh sebab itu, mempersiapkan diri sebaik mungkin adalah kunci kesuksesan berkarir sebagai praktisi data.

Nah, kebetulan banget lho sahabat DQLab. Kali ini, kalian nggak usah ragu lagi buat belajar statistik. Karena sekarang ada nih Modul baru yang fresh banget dari DQLab. Kamu bisa cobain modul œStatistik Dasar untuk Data Science dengan Python & Scikit - Ukuran Data : Pemusatan".

Cara ngerjainnya gimana sih? Gampang banget! Kamu langsung bikin akun DQLab kamu disini. Terus kamu juga bisa akses lebih lengkap modulnya pada DQLab.id di menu Programs.

Yuk tunggu apalagi? Ayo persiapkan dirimu untuk berkarir sebagai praktisi data yang kompeten! Selamat mencoba!

Penulis: Reyvan Maulid

Postingan Terkait

Memahami Bahasa R untuk Dunia Professional Part 3

18 Juli 2022

Belajar Bahasa R : Eksplorasi Data Ritel dengan Menggunakan R

20 Juli 2022

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Buat Akun

Saya memahami dan menyetujui DQLab Terms of Service

Atau

Sign-Up dengan Google

Sign-Up dengan Facebook

Sudah punya akun? Login