Easy Way Array Python untuk Analisis Korelasi
Array python adalah salah satu cara untuk mengorganisir dan menyusun data-data yang ada agar lebih terstruktur dan mudah untuk diakses oleh user. Array dalam ilmu data science juga sangat penting. Sebab dengan modal array, praktisi data bisa membuat model deep learning dan algoritma machine learning. Penulisan array python yang tepat pastinya akan menghasilkan output yang tepat juga.
Bekerja dengan menggunakan Array akan sangat membantu praktisi data untuk melakukan indeks data dan pemilihan variabel tertentu dalam kumpulan data. Terlebih dalam array python sendiri memiliki tampilan multidimensi dan memiliki kapasitas untuk menampung kolom pada sumbu data yang berbeda.
Berbicara soal array Python memang punya banyak jenisnya. Dalam bahasa pemrograman Python, ada satu library yang bisa dipakai dalam analisis statistik. Yap, dialah Numpy atau Numerical Python. Numpy memiliki jenis array yang bervariasi. Salah satu array yang bisa kalian gunakan adalah array untuk melakukan analisis korelasi dengan bahasa pemrograman Python. Dalam bahasa pemrograman Python sendiri analisis korelasi ditunjukkan dengan np.corrcoef().
Hal ini dikarenakan kita ingin mencari nilai korelasi dari hubungan antara kedua variabel yang ingin diuji. Lalu bagaimana cara mencari nilai koefisien korelasi dengan menggunakan array Python? Yuk kita simak bareng-bareng sahabat DQLab artikelnya!
1. Mengenal Analisis Korelasi
Analisis korelasi adalah sebuah teknik analisis untuk mengetahui ada atau tidaknya hubungan linear antara dua variabel. Nilai korelasi ditunjukkan oleh koefisien korelasi. Mereka memiliki nilai antara -1 hingga 1. Semakin mendekati 1 maka hubungan yang ditimbulkan oleh kedua variabel akan semakin kuat. Sedangkan semakin mendekati nol maka korelasi antara dua variabel semakin rendah.
Sedangkan tanda (sign) koefisien korelasi menunjukkan arah hubungan. Tanda negatif (-) menunjukkan hubungan yang berkebalikan. Tanda positif (+) menunjukkan hubungan yang searah. Berkebalikan artinya semakin meningkat nilai suatu variabel maka variabel lainnya semakin menurun. Searah artinya semakin meningkat nilai suatu variabel maka variabel lainnya ikut meningkat.
Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python
2. Perbedaan Korelasi Rank Spearman dan Pearson
Sebelum kita bahas perbedaan antara korelasi, kita jelaskan dulu persamaannya ya sahabat DQ. Sebenarnya seperti yang sudah dijelaskan diatas bahwa baik Spearman maupun Pearson ini punya koefisien korelasi yang rentangnya sama. Jadi dalam analisis korelasi berbeda dengan analisis regresi. Tingkat hubungan berbeda dengan tingkat pengaruh. Hubungan adalah keterkaitan antara dua variabel yang arahnya tidak terlalu jelas.
Mana variabel yang mempengaruhi dan mana variabel yang dipengaruhi. Sedangkan pengaruh sudah jelas arahnya, mana variabel yang mempengaruhi dan mana variabel yang dipengaruhi.. Jika kalian penasaran sebenarnya dimana sih letak perbedaan antara kedua korelasi ini. Baik korelasi Rank Spearman dan korelasi Pearson Product Moment.
Korelasi Rank Spearman
Korelasi Rank Spearman digunakan untuk data diskrit dan kontinu. Namun korelasi Rank Spearman lebih akrab diaplikasikan pada statistik nonparametrik. Berbeda dengan Korelasi Pearson, korelasi ini tidak memerlukan asumsi normalitas, maka korelasi rank spearman cocok juga digunakan untuk data dengan sampel kecil. Korelasi Rank Spearman menghitung korelasi dengan menghitung ranking data terlebih dahulu.
Artinya korelasi dihitung berdasarkan orde data. Ketika peneliti berhadapan dengan data kategorik seperti kategori pekerjaan, tingkat pendidikan, kelompok usia, dan contoh data ketegorik lainnya, maka Korelasi Rank Spearman cocok digunakan. Korelasi Rank Spearman pun cocok digunakan pada kondisi dimana peneliti dihadapkan pada data numerik (kurs rupiah, rasio keuangan, pertumbuhan ekonomi), namun peneliti tidak memiliki cukup banyak data (data kurang dari 30).
Korelasi Pearson
Korelasi Pearson merupakan salah satu ukuran korelasi yang digunakan untuk mengukur kekuatan dan arah hubungan linier dari dua variabel. Dua variabel dikatakan berkorelasi apabila perubahan salah satu variabel disertai dengan perubahan variabel lainnya, baik dalam arah yang sama ataupun arah yang sebaliknya. Harus diingat bahwa nilai koefisien korelasi yang kecil (tidak signifikan) bukan berarti kedua variabel tersebut tidak saling berhubungan.
Mungkin saja dua variabel mempunyai keeratan hubungan yang kuat namun nilai koefisien korelasinya mendekati nol, misalnya pada kasus hubungan non linier. Dengan demikian, koefisien korelasi hanya mengukur kekuatan hubungan linier dan tidak pada hubungan non linier. Harus diingat pula bahwa adanya hubungan linier yang kuat di antara variabel tidak selalu berarti ada hubungan kausalitas, sebab-akibat
3. Tipe Korelasi
Dalam analisis korelasi dikenal dengan tiga bentuk yang memiliki perbedaan satu sama lain. Tiga bentuk ini digambarkan dalam bentuk scatterplot alias diagram sebar yang nantinya akan membentuk pola. Berikut adalah penjelasan masing-masing tipe korelasi:
Korelasi negatif (negative correlation). Pada gambar diatas digambarkan pada titik berwarna merah. Dari gambar tersebut sebenarnya memiliki pola yang cenderung menurun. Hal ini menandakan bahwa nilai y mengalami penurunan seiring dengan peningkatan nilai x. Artinya setiap kenaikan y sebesar satu satuan maka nilai x memiliki penurunan
Tidak ada korelasi (weak or no correlation). Pada gambar diatas ditunjukkan pada titik berwarna hijau. Jadi pergerakannya tidak terlalu signifikan baik penurunan ataupun peningkatannya. Bahkan bisa dibilang pada korelasi ini tidak jelas hubungan antara kedua variabel dan hampir tidak dapat diamati.
Korelasi positif (positive correlation). Pada gambar diatas digambarkan di sebelah kanan dan berwarna biru. Dari gambar ini bisa disimpulkan bahwa nilai y mengalami peningkatan nilai x. Artinya setiap kenaikan y sebesar satu satuan maka nilai x memiliki peningkatan juga
4. Array Numpy Python dalam Analisis Korelasi
Library Numpy memiliki banyak sekali operasi matematika dan statistika. Salah satu array yang bisa kamu manfaatkan untuk analisis korelasi adalah np.corrcoef(). Nah, seperti yang kita tahu bahwa analisis korelasi itu memiliki tiga jenis. Ada korelasi Pearson Product Moment, korelasi Rank Spearman, dan korelasi Kendall Tau. Kali ini, kita akan mempraktekkan cara menuliskan array untuk koefisien korelasi Pearson. Ingat kalau dalam korelasi kita ingat ada x dan y. Yuk langsung kita intip ya.
Nah, berdasarkan sintaks diatas kita disini mengimpor library Numpy untuk melakukan operasi statistika. Kemudian kita bisa membuat array dengan np.arrange untuk membuat array x bilangan bulat antara 10 hingga 20. Kemudian, kita memanggil array np.corrcoef().
Corrcoef() adalah salah satu array yang dituliskan untuk melakukan pengujian analisis korelasi. Nah dari hasil sintaks tersebut akan menghasilkan nilai koefisien korelasi sebagai berikut:
Berdasarkan hasil output diatas nlai pada diagonal utama matriks korelasi (kiri atas dan kanan bawah) sama dengan 1. Nilai kiri atas sesuai dengan koefisien korelasi untuk x dan x, sedangkan nilai kanan bawah adalah koefisien korelasi untuk y dan y. Namun yang kita butuhkan disini adalah nilai koefisien korelasi Pearson yang hubungan x dan y. Dalam hal ini nilainya adalah 0.76. Jika diartikan dalam nilai korelasi bahwa korelasi yang dihasilkan ialah korelasi positif. Hal ini dikarenakan nilainya berada diatas 1.
Baca juga: Array Python : Array VS List Serupa Namun Tak Sama, Yuk, Kenali Perbedaannya
Belajar coding python akan sangat mudah dan so easy kalau misalnya tidak praktek buat nulis array dan printilan-printilannya. Mau tahu dan pengen lebih lanjut lagi untuk belajar menulis array python? Yuk langsung aja belajar coding Python bersama DQLab! Kamu bisa loh untuk mulai bikin akun gratisnya di DQLab.id dan lakukan signup untuk mulai belajar data science sekarang!
Nikmati pula free module Introduction to Data Science with Python untuk upskill data analysis kamu secara gratis! So, tunggu apalagi, yuk signup sekarang atau isi form dibawah ini ya!
Penulis: Reyvan Maulid