Beberapa Resiko Jika Gunakan Time Bars di Machine Learning
Model machine learning punya berbagai tipe untuk melakukan analisis data, prediksi, klasifikasi, segmentasi, hingga deteksi pola yang kompleks. Dalam dunia machine learning, terutama dalam analisis data time series, salah satu teknik yang umum digunakan adalah membagi data menjadi beberapa segmen atau bar yang teratur.
Salah satu pendekatan yang paling sering digunakan adalah time bars. Meskipun time bars telah lama digunakan, terutama di bidang keuangan dan trading, metode ini juga memiliki beberapa kelemahan yang bisa mempengaruhi hasil prediksi dan performa model machine learning. Artikel ini akan membahas apa saja masalah yang terjadi jika menggunakan time bars dalam machine learning.
1. Mempengaruhi Kualitas Prediksi Model
Karena time bars tidak mempertimbangkan aspek-aspek seperti volume dan volatilitas, hasil yang dihasilkan oleh model machine learning yang menggunakan time bars sebagai input bisa kurang akurat. Model dapat menjadi bias terhadap pola-pola yang diciptakan oleh pembagian waktu yang tidak fleksibel, dan bukan terhadap pola yang sebenarnya terjadi di data. Hal ini terutama penting dalam model prediksi berbasis deep learning, di mana kualitas data input sangat mempengaruhi performa model.
Baca juga : Yuk Kenali Macam-Macam Algoritma Machine Learning!
2. Tidak Efisien untuk Data dengan Aktivitas yang Tidak Konsisten
Dalam situasi di mana data memiliki aktivitas yang tidak konsisten sepanjang waktu, seperti data penjualan yang bervariasi berdasarkan musim atau data lalu lintas internet yang berbeda pada jam-jam tertentu, penggunaan time bars bisa menjadi tidak efisien. Hal ini karena time bars tidak dapat menangkap perubahan yang terjadi di luar interval waktu yang telah ditetapkan.
Misalnya, jika ada peningkatan volume data selama promosi khusus atau event tertentu, time bars tidak dapat menyesuaikan diri untuk menangkap informasi tambahan ini.
3. Meningkatnya Tingkat Kebisingan (Noise) dalam Data
Time bars dapat memperkenalkan noise ke dalam data, terutama ketika data yang dihasilkan pada interval waktu tertentu tidak relevan atau tidak memiliki pola yang signifikan. Misalnya, data keuangan sering kali menunjukkan pergerakan acak selama periode waktu yang sangat singkat, yang bisa menambahkan noise jika dipecah menggunakan time bars.
Ini dapat menyebabkan overfitting pada model machine learning, di mana model belajar dari pola yang tidak relevan atau kebisingan daripada pola yang benar-benar berarti.
4. Pembagian Data yang Tidak Fleksibel
Time bars membagi data berdasarkan interval waktu yang tetap (misalnya, setiap 5 menit, 1 jam, atau 1 hari). Hal ini berarti bahwa setiap bar memiliki durasi waktu yang sama, terlepas dari seberapa banyak aktivitas atau volume yang terjadi selama periode tersebut.
Akibatnya, ketika ada lonjakan aktivitas atau perubahan signifikan dalam data, informasi penting dapat tersembunyi atau terdistorsi karena time bars tidak mampu menyesuaikan diri dengan perubahan tersebut. Ini terutama menjadi masalah pada data yang tidak stasioner, di mana perubahan bisa terjadi secara tiba-tiba dan tidak merata.
Baca juga : Bootcamp Machine Learning and AI for Beginner
5. Kehilangan Informasi tentang Aktivitas Pasar
Time bars tidak mempertimbangkan volume atau frekuensi transaksi. Misalnya, di pasar keuangan, ada saat-saat ketika pasar sangat aktif dan ada saat-saat yang sepi. Dengan menggunakan time bars, bar yang dihasilkan selama periode aktivitas rendah akan memiliki jumlah data yang sama dengan bar yang dihasilkan selama periode aktivitas tinggi.
Akibatnya, data dari periode yang lebih aktif bisa menjadi kurang representatif, karena mereka "dipaksa" ke dalam interval waktu yang sama dengan periode yang kurang aktif.
Time bars mungkin menjadi pilihan yang sederhana dan mudah dipahami untuk membagi data time series, tetapi mereka memiliki banyak keterbatasan yang bisa mempengaruhi performa model machine learning, terutama dalam data yang bersifat dinamis seperti keuangan, lalu lintas web, atau penjualan.
Dalam kasus di mana aktivitas atau volume bervariasi secara signifikan, lebih baik mempertimbangkan penggunaan volume bars atau tick bars untuk mendapatkan hasil yang lebih akurat. Melalui pendalaman dalam memahami masalah yang terjadi saat menggunakan time bars, kita bisa lebih bijak dalam memilih pendekatan yang sesuai untuk analisis data dan pengembangan model machine learning.
Ingin belajar machine learning tapi nggak bikin kepala pusing? Ya, DQLab jawabannya! Modul ajarnya lengkap dan bervariasi. Semua skill yang dibutuhkan akan diajarkan. Dilengkapi studi kasus yang membantu kalian belajar memecahkan masalah dari berbagai industri. Bahkan diintegrasikan dengan ChatGPT. Manfaatnya apa?
Membantu kalian menjelaskan lebih detail code yang sedang dipelajari
Membantu menemukan code yang salah atau tidak sesuai
Memberikan solusi atas problem yang dihadapi pada code
Membantu kalian belajar kapanpun dan dimanapun
Selain itu, DQLab juga menggunakan metode HERO yaitu Hands-On, Experiential Learning & Outcome-based, yang dirancang ramah untuk pemula. Tunggu apa lagi, segera Sign Up dan persiapkan diri untuk menguasai machine learning dengan ikuti Bootcamp Machine Learning and AI for Beginner!
Penulis: Reyvan Maulid