Teknik Pengolahan Data Deskriptif dengan Statistik!

Belajar Data Science di Rumah 17-September-2021

https://dqlab.id/files/dqlab/cache/a2d9e6b1180626ad53adb4ee4a38a5a8_x_Thumbnail800.jpg

Statistik deskriptif digunakan untuk menggambarkan ciri-ciri dasar data dalam suatu penelitian. Mereka memberikan ringkasan sederhana tentang sampel dan langkah-langkahnya. Bersama dengan analisis grafik sederhana, mereka membentuk dasar dari hampir setiap analisis kuantitatif data.

Statistik deskriptif biasanya dibedakan dari statistik inferensial. Dengan statistik deskriptif, sahabat data hanya menggambarkan apa yang ada atau apa yang ditunjukkan oleh data. Dengan statistik inferensial, sahabat data mencoba mencapai kesimpulan yang melampaui data langsung saja. Misalnya, kami menggunakan statistik inferensial untuk mencoba menyimpulkan dari data sampel apa yang mungkin dipikirkan populasi. Atau, kami menggunakan statistik inferensial untuk membuat penilaian tentang probabilitas bahwa perbedaan yang diamati antara kelompok adalah yang dapat diandalkan atau yang mungkin terjadi secara kebetulan dalam penelitian ini. Jadi, kami menggunakan statistik inferensial untuk membuat kesimpulan dari data kami ke kondisi yang lebih umum; kami menggunakan statistik deskriptif hanya untuk menggambarkan apa yang terjadi dalam data kami.

Statistik Deskriptif digunakan untuk menyajikan deskripsi kuantitatif dalam bentuk yang dapat dikelola. Dalam studi penelitian kita mungkin memiliki banyak ukuran. Atau kita dapat mengukur sejumlah besar orang dengan ukuran apa pun. Statistik deskriptif membantu kami menyederhanakan sejumlah besar data dengan cara yang masuk akal. Setiap statistik deskriptif mengurangi banyak data menjadi ringkasan yang lebih sederhana. Misalnya, pertimbangkan nomor sederhana yang digunakan untuk meringkas seberapa baik kinerja seorang pemukul dalam bisbol, rata-rata pukulan. Angka tunggal ini hanyalah jumlah pukulan dibagi dengan berapa kali bat (dilaporkan menjadi tiga digit signifikan). Seorang pemukul yang memukul 0,333 mendapat pukulan satu kali dalam setiap tiga pemukul. Satu pukulan .250 memukul satu kali dalam empat. Nomor tunggal menggambarkan sejumlah besar peristiwa diskrit. Atau, pertimbangkan momok banyak siswa, Indeks Prestasi Kumulatif (IPK). Nomor tunggal ini menggambarkan kinerja umum seorang siswa di berbagai pengalaman kursus yang berpotensi luas.

Setiap kali sahabat data mencoba menggambarkan sekumpulan besar pengamatan dengan satu indikator, sahabat data berisiko mendistorsi data asli atau kehilangan detail penting. Rata-rata pukulan tidak memberi tahu sahabat data apakah pemukul memukul home run atau tunggal. Itu tidak memberi tahu apakah dia sedang dalam kemerosotan atau beruntun. IPK tidak memberi tahu sahabat data apakah siswa tersebut mengikuti kursus yang sulit atau yang mudah, atau apakah mereka mengikuti kursus di bidang utama mereka atau dalam disiplin lain. Bahkan dengan keterbatasan ini, statistik deskriptif memberikan ringkasan yang kuat yang memungkinkan perbandingan antar orang atau unit lain.

Lalu bagaimana hal hal lain terkait dengan analisis data secara deskriptive?

1. Distribusi

Distribusi adalah ringkasan frekuensi nilai individu atau rentang nilai untuk suatu variabel. Distribusi paling sederhana akan mencantumkan setiap nilai variabel dan jumlah orang yang memiliki setiap nilai. Misalnya, cara khas untuk menggambarkan distribusi mahasiswa adalah menurut tahun di perguruan tinggi, dengan mencantumkan jumlah atau persentase mahasiswa pada masing-masing dari empat tahun tersebut. Atau, kami menggambarkan jenis kelamin dengan mencantumkan jumlah atau persen laki-laki dan perempuan. Dalam kasus ini, variabel memiliki beberapa nilai yang cukup sehingga kita dapat membuat daftar masing-masing dan meringkas berapa banyak kasus sampel yang memiliki nilai. Tapi apa yang kita lakukan untuk variabel seperti pendapatan atau IPK? Dengan variabel-variabel ini bisa ada sejumlah besar nilai yang mungkin, dengan relatif sedikit orang yang memiliki masing-masingnya. Dalam hal ini, kami mengelompokkan skor mentah ke dalam kategori menurut rentang nilai. Misalnya, kita mungkin melihat IPK menurut rentang nilai huruf. Atau, kita dapat mengelompokkan pendapatan ke dalam empat atau lima rentang nilai pendapatan.

2. Penyebaran

Dispersi mengacu pada penyebaran nilai-nilai di sekitar tendensi sentral. Ada dua ukuran umum dispersi, jangkauan dan standar deviasi. Rentang hanyalah nilai tertinggi dikurangi nilai terendah. Dalam distribusi contoh kami, nilai tertinggi adalah 36 dan terendah adalah 15, jadi kisarannya adalah 36 - 15 = 21.

Standar Deviasi adalah perkiraan dispersi yang lebih akurat dan rinci karena outlier dapat sangat melebih-lebihkan rentang (seperti yang benar dalam contoh ini di mana nilai outlier tunggal 36 berdiri terpisah dari nilai lainnya. Standar Deviasi menunjukkan hubungan yang set skor harus rata-rata sampel.

3. Mean and Median

Mean atau rata-rata mungkin merupakan metode yang paling umum digunakan untuk menggambarkan tendensi sentral. Untuk menghitung mean yang Anda lakukan adalah menjumlahkan semua nilai dan membaginya dengan jumlah nilai. Misalnya, nilai rata-rata atau rata-rata kuis ditentukan dengan menjumlahkan semua nilai dan membaginya dengan jumlah siswa yang mengikuti ujian. Median adalah skor yang ditemukan tepat di tengah-tengah himpunan nilai. Salah satu cara untuk menghitung median adalah dengan membuat daftar semua skor dalam urutan numerik, dan kemudian menemukan skor di tengah sampel. Misalnya, jika ada 500 skor dalam daftar, skor #250 akan menjadi median.

4. Modus

Mode atau Modus adalah nilai yang paling sering muncul dalam kumpulan skor. Untuk menentukan mode, Anda dapat mengurutkan kembali skor seperti yang ditunjukkan di atas, lalu menghitung masing-masing. Nilai yang paling sering muncul adalah modus. Dalam contoh kita, nilai 15 muncul tiga kali dan merupakan modelnya. Dalam beberapa distribusi ada lebih dari satu nilai modal. Misalnya, dalam distribusi bimodal ada dua nilai yang paling sering muncul.

5. Belajar Data Analis From 0 To Hero!

Hi Sahabat Data, ada track data analis yang melatih kamu dalam menentukan langkah langkah melakukan analisa data dengan tepat bersama DQLab . Belajar mengolah data dengan data industri dengan mudah dan anti ribet. Mulai dari pengenalan hingga pengolahan data tingkat advanced. Yuk kapan lagi belajar anti ribet dengan live code editor dan mudah dimengerti. Lakukan registrasi sekarang!

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.