Pahami Beberapa Konsep Statistik Berikut Sebelum Membuat Model Machine Learning

Belajar Data Science di Rumah 19-September-2020

https://dqlab.id/files/dqlab/cache/ec0dbe2ea41fec25c163f6a2f0034f4a_x_Thumbnail800.jpg

Data Science dan Machine Learning merupakan bidang yang mempertemukan beberapa disiplin ilmu. Setidaknya, terdapat 3 disiplin ilmu yang harus dimiliki untuk dapat menjadi seorang Data Scientist atau Machine Learning Engineer yaitu Programming, Statistik, dan Bisnis. Dalam melakukan projek Data Science apapun, dan membuat model Machine Learning apapun, penting bagi kita untuk memiliki pemahaman mendasar yang kuat di ke-3 bidang tersebut. Akan tetapi, tidak jarang di antara pelajar yang baru mempelajari Data Science yang tidak mendalami pemahaman statistiknya.

Oleh karena itu, dalam artikel ini DQLab akan berbagi mengenai 3 konsep dasar statistik yang esensial untuk dipahami bagi kalian yang ingin menjadi seorang Data Scientist atau Machine Learning Engineer, atau bahkan sekedar ingin mempelajari Data Science. Apa saja ke-3 konsep tersebut? Simak terus penjelasannya ya!

1. Statistik Deskriptif : Measures of Central Tendency

Statistik Deskriptif adalah cabang dari statistik untuk mendeskripsikan dan merangkum data. Contoh hal umum yang biasa kita lakukan di dalam tipe statistik ini seperti pembuatan graph, dan menghitung berbagai macam pengukuran data seperti Mean. Terdapat 2 jenis statistik deskriptif, yang pertama ialah Measures of Central Tendency yang dapat didefinisikan sebagai cara untuk mendeskripsikan posisi titik tengah dari distribusi frekuensi suatu kelompok data. 3 cara paling umum untuk digunakan adalah menggunakan:

Mean

Mean adalah jumlah dari seluruh data continuous (numerikal) dibagi dengan jumlah data yang ada. Mean adalah measure of central yang paling sering digunakan untuk data numerikal. Jika kita berbicara tentang populasi, maka lambang Mean yang biasa digunakan adalah Î¼ sedangkan pada sampel adalah xÌ„.

Median

Median adalah nilai tengah dari suatu data numerikal yang diurutkan. Jika jumlah data kita ganjil, maka nilai median tepat berada di tengah-tengah dari data. Jika jumlah data kita genap, maka nilai median kita berada di antara kedua nilai yang berada di tengah; sebagai contoh jika kita mempunyai data 1,1,2,3,3,4,4,5 maka nilai median kita adalah 3 karena kita mempunyai 8 data sehingga nilai titik tengahnya berada di posisi ke-4 (nilai 3) dan ke-5 (nilai 3) dan lebih tepatnya lagi data di kedua posisi ini ditambahkan lalu dibagi 2. Median lebih sering digunakan jika Mean tidak mampu menjelaskan data kita dengan baik, sehingga diperlukan pengukuran titik tengah menggunakan pengukuran lain.

Mode

Mode atau Modus adalah suatu data categorical (bukan numerikal) atau data continous yang dapat dihitung dimana frekuensi dari data tersebut paling besar. Dengan kata lain adalah data yang paling sering muncul. Kita menggunakan Mode jika data kita adalah data categorical atau data numerikal yang kita anggap sebagai suatu data categorical.

2. Statistik Deskriptif : Measures of Spread

Salah satu jenis dari statistik deskriptif yang lainnya adalah Measures of Spread. Measures of Spread didefinisikan sebagai cara untuk mendeskripsikan data kita dengan menjelaskan seberapa menyebar data kita. Cara yang sering digunakan adalah

Range

Range adalah perbedaan antara data numerikal terkecil hingga data terbesar. Tidak banyak informasi yang bisa kita ketahui selain mengetahui perbedaan besar data kita.

Quartile

Quartile adalah nilai yang membagi data menjadi 4 bagian. Bagian yang terbagi disebut dengan Quarter. Jika kita menyebut Quartile, maka yang sebenarnya kita acu adalah nilai yang membagi, bukan hasil bagiannya. Terdapat 3 jenis Quartile pada saat menggunakan metode Quartile, yaitu Q1 (Nilai antara median dengan data terkecil), Q2 (Median), dan Q3 (Nilai antara median dengan terbesar). Quartile membagi data yang diurutkan menjadi 4 bagian. Setiap bagian yang terbagi disebut dengan quarter.

Salah satu pertanyaan yang mungkin diajukan adalah apakah Quartile ini termasuk kedalam data yang berada di Quarter? Jawabannya adalah tergantung dari peraturan metode yang digunakan. Ada yang memasukkan dan ada juga yang tidak. Quartile sangat berguna karena berhubungan dengan konsep statistik lain yaitu Interquartile Range (IQR) yang sering digunakan untuk mencari outlier (data yang ekstrim). IQR sendiri didapatkan dengan cara mengurangi Q3 dengan Q1 (IQR = Q3 ” Q1). Dengan menggunakan metode IQR, kita bisa menentukan outlier melalui suatu nilai batas yang ditentukan sebagai berikut:

Batas Bawah = Q11.5 * IQR
Batas Atas = Q3 + 1.5 * IQR

Data yang kurang dari batas bawah ataupun data yang melebihi batas atas akan disebut dengan outlier.

Variance

Variance adalah pengukuran suatu variabilitas dari data untuk mengetahui seberapa jauh data yang dimiliki tersebar. Variance dihitung berdasarkan total dari setiap data (Xi) dikurangi dengan mean data (xÌ„). Sedikit perbedaan jika kita berbicara mengenai data pada populasi dan sampel. Pada variance populasi kita membagi data kita dengan seluruh jumlah sampel data (N), sedangkan jika data sampel maka kita membaginya dengan jumlah data yang ada dikurangi 1 (N-1). Ini dilakukan karena data sampel memiliki ketidakpastian dibandingkan populasi sehingga kita memperbesar perhitungan persebaran kita.

Standard Deviation

Standard deviation adalah measure of spread yang paling sering digunakan karena memberikan informasi yang jelas dan intuitif. Untuk mendapatkan nilai Standard deviation kita hanya perlu melakukan akar kuadrat terhadap variance.

Standard deviation menggambarkan seberapa berbeda nilai di data kita terhadap mean. Jika menggunakan bahasa sehari-hari, standard deviation adalah nilai plus-minus dari mean ( xÌ„ð‘ ). Selain itu standar deviation juga digunakan di dalam empirical rule atau 689599.7 rule dimana normalnya data kita tersebar sebesar 1 * STD (68 % data), 2 * STD (95 % data), dan 3 * STD (99.7% data). Data yang terletak lebih atau kurang dari batas tersebut menandakan bahwa data tersebut adalah suatu outlier.

3. Populasi dan Sampel

Populasi adalah keselurahan individu atau benda yang ingin kita teliti atau yang kita tertarik ingin kita ketahui. Walau begitu, hampir mustahil untuk mengukur populasi secara keseluruhan. Oleh karena itu, kita mempunyai konsep yang dinamakan Sampel. Sampel bisa dikatakan perwakilan dari Populasi yang merepresentasikan populasi.

Salah satu tujuan dari pengunaan ilmu statistik adalah untuk mengetahui Parameter populasi (seperti Mean, Median, dll.), tetapi kita menggunakan sampel untuk merepresentasikan populasi sehingga secara lebih tepat yang kita selalu lakukan perhitungan terhadap data kita disebut dengan Statistik sampel. Karena itu juga, Parameter populasi ini biasanya tidak pernah diketahui dan kita menggunakan sampel statistik untuk memperkirakan parameter populasi ini.

4. Yuk Pelajari Lebih Lanjut Bersama DQLab!

Tunggu apa lagi? Yuk terapkan ilmunya sekarang dengan bergabung bersama platform belajar online DQLab! Selain bisa meningkatkan ilmu data yang dimiliki, kamu juga bisa membangun portofolio datamu di DQLab guna mempersiapkan dirimu berkarir di industri data.

Sign up sekarang di DQLab.id dan nikmati module GRATIS "Introduction to Data Science" untuk menikmati pengalaman belajar yang seru menyenangkan serta aplikatif pada industri nyata! Untuk kamu yang ingin mulai belajar Data Science atau siap berkarir jadi Data Analyst, Data Scientist, dan Data Engineer, persiapkan diri kamu dengan tepat sekarang. Tidak ada kata terlambat untuk belajar. Yuk #MulaiBelajarData di DQLab.

Dengan belajar di DQLab, kamu bisa:

Menerapkan teknik mengolah data kotor, hasilkan visualisasi data dan model prediksi dengan studi kasus Retail dan Finansial
Dapatkan sesi konsultasi langsung dengan praktisi data lewat data mentoring
Bangun portofolio data langsung dari praktisi data Industri
Akses Forum DQLab untuk berdiskusi.

Simak informasi di bawah ini untuk mengakses gratis module "Introduction to Data Science":

Buat Akun Gratis dengan Signup di DQLab.id/signup
Akses module Introduction to Data Science
Selesaikan modulenya, dapatkan sertifikat & reward menarik dari DQLab

Penulis : Jihar Gifari

Editor : Annissa Widya

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab

Daftar sekarang dan ambil langkah
pertamamu untuk mengenal
Data Science.

Pahami Beberapa Konsep Statistik Berikut Sebelum Membuat Model Machine Learning

1. Statistik Deskriptif : Measures of Central Tendency

3. Populasi dan Sampel

4. Yuk Pelajari Lebih Lanjut Bersama DQLab!

Tags

Mulai Kariersebagai PraktisiData BersamaDQLab

Daftar Gratis & Mulai Belajar

Mulai Karier
sebagai Praktisi
Data Bersama
DQLab