IMPLEMENTASI BIG DATA ANALYTICS DALAM KLASIFIKASI KUALITAS UDARA MENGGUNAKAN ALGORITMA GRADIENT-BOOSTED TREE CLASSIFIER PADA PYSPARK
DOI:
https://doi.org/10.58641/technomedia.v2i1.124Kata Kunci:
Big Data Analytics, Gradient-Boosted Tree, Kualitas Udara, PySparkAbstrak
Penelitian ini bertujuan untuk mengklasifikasikan kualitas udara berdasarkan parameter PM1.0, PM2.5, dan PM10 dengan memanfaatkan pendekatan Big Data Analytics menggunakan algoritma Gradient-Boosted Tree Classifier (GBT) yang diimplementasikan pada framework PySpark. Dataset yang digunakan diunduh dari OpenAQ, mencakup periode 14 April 2021 hingga 16 April 2023, dengan total 1.048.154 entri, menunjukkan volume data yang besar dan kompleks. Proses penelitian meliputi pra-pemrosesan data untuk menangani ketidakseimbangan data, pembagian dataset untuk pelatihan dan pengujian, serta tuning hyperparameter menggunakan grid search dan cross-validation untuk mengoptimalkan kinerja model. Dengan memanfaatkan keunggulan PySpark dalam pemrosesan data besar secara paralel, model GBT berhasil mencapai akurasi 98.87%, presisi 99.00%, recall 98.87%, dan F1-Score 98.90%. Penelitian ini menunjukkan bagaimana Big Data Analytics dapat meningkatkan efisiensi dan akurasi dalam klasifikasi kualitas udara, memberikan kontribusi signifikan dalam pengembangan sistem pemantauan real-time yang mendukung mitigasi polusi udara dan pengambilan kebijakan berbasis data.
Unduhan
Diterbitkan
Cara Mengutip
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2025 muhamad Fuat Asnawi Asnawi, Nur Fitriyanto, M. Agoeng Pamoengkas

Artikel ini berlisensi Creative Commons Attribution 4.0 International License.