Imputación de fallos en series temporales de temperatura del aire: una comparación entre modelos de machine learning

Autores/as

DOI:

https://doi.org/10.55761/abclima.v35i20.17649

Palabras clave:

Imputación de fallos. Aprendizaje Automático. árboles de decisión. máquinas de vectores de soporte. SVR. CART. Red Elástica. LASSO. KNN. Regresión Lineal.

Resumen

En este estudio, se llevó a cabo un análisis comparativo de diferentes algoritmos de Aprendizaje Automático (ML) para la imputación de fallos en datos de temperatura del aire de cuatro ubicaciones en distintos estados de Brasil. Se evaluaron seis algoritmos: regresión lineal, regresión LASSO, red elástica, k vecinos más cercanos, árboles de decisión (CART) y regresión de vectores de soporte (SVR). Los resultados, referentes a todas las ubicaciones, muestran que el modelo Support Vector Regression (SVR) fue el más prometedor, con valores de RMSE excepcionalmente bajos, que oscilan entre 0,1712 °C y 0,2062 °C. Esto sugiere que SVR puede ser la mejor opción para la predicción de la temperatura del aire. Mientras tanto, el Árbol de Decisión presentó resultados sólidos, con RMSE que varían entre 0,2198 °C y 0,3746 °C. Los modelos Elastic Net (EN) y LASSO tuvieron un rendimiento inferior, con RMSE entre 1,6935 °C y 2,8555 °C. El modelo K-Nearest Neighbors (KNN) obtuvo resultados intermedios, con RMSE que varían entre 0,5579 °C y 0,7567 °C. La Regresión Lineal también presentó resultados variables, con RMSE entre 0,7474 °C y 1,4010 °C.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Anisio Alfredo da Silva Junior, Instituto Federal de São Paulo

Doutor e mestre em Física Ambiental pela Universidade Federal do Mato Grosso (UFMT), bacharel em Sistemas de Informação pela Associação Bandeirantes de Ensino S/C Ltda (2008). Como pesquisador, atua na área de inteligência artificial, principalmente em pesquisas relacionadas a análise de dados meteorológicos. Desenvolvedor altamente qualificado com ampla experiência em JAVA e sistemas empresariais.

Raphael de Souza Rosa Gomes , Universidade Federal de Mato Grosso

Possui graduação em Ciência da Computação pela Universidade Federal de Mato Grosso (2009). Mestrado em Física Ambiental pelo Programa de Pós-Graduação em Física Ambiental pela Universidade Federal de Mato Grosso (2012). Doutorado em Física Ambiental pelo Programa de Pós-Graduação em Física Ambiental pela Universidade Federal de Mato Grosso (2015). Pesquisa na área de Ciências Ambientais com ênfase em evapotranspiração baseado no balanço de energia utilizando imagens de satélites.

Carlo Ralph De Musis , Universidade de Cuiabá

Sou doutor em Educação pela Pontifícia Universidade Católica de São Paulo, mestre em Agricultura Tropical e engenheiro civil pela Universidade Federal de Mato Grosso. Atuo como orientador de mestrado e doutorado nos Programas de Estudos Pós-Graduados em Física Ambiental da Universidade Federal de Mato Grosso, e em Ciências Ambientais na Universidade de Cuiabá. Atuo também como perito criminal na área de Computação na POLITEC/MT. Tenho-me dedicado a estudos e pesquisas multidisciplinares tendo como referentes estatística multivariada, teoria das representações sociais, conforto ambiental, interação atmosfera-biosfera, modelagem por sistemas dinâmicos e física ambiental

Jonathan Willian Zangeski Novais , Instituto Federal de Mato Grosso

Doutor em Física Ambiental pelo Programa de Pós-Graduação em Física Ambiental da UFMT, professor pesquisador do mestrado em Ciências Ambientais da Universidade de Cuiabá-UNIC, atuando nas linhas de pesquisa Monitoramento e Desenvolvimento Ambiental e Dinâmica de Ambientes Urbanos e Rurais, desenvolvendo atividades interdisciplinares quanto à avaliação e estrutura do meio físico dos diversos ambientes regionais com ênfase na questão das mudanças globais e na influência da ação antrópica no meio-ambiente, urbano ou rural. Mestre em Física Ambiental pelo Programa de Pós-Graduação em Física Ambiental da UFMT. Graduado em Engenharia Elétrica pela Universidade de Cuiabá - UNIC e graduado em Licenciatura Plena em Física pela Universidade Federal do Mato Grosso-UFMT

Daniela Maionchi , Universidade Federal de Mato Grosso

Possui graduação em Física pela Universidade Estadual de Campinas (2001), mestrado em Física pela Universidade Estadual de Campinas (2004), Doutorado em Física pela Universidade Federal do Ceara (2008), com pos-doutorado no Laboratório de Combustão e Propulsão (LCP) do (INPE) e no Departamento de Engenharia Química da UFRJ. Tem experiência na área de Física, com ênfase em sistemas dinamicos, fluidodinâmica, sistemas granulares e combustão. Atualmente é professora na Universidade Federal de Mato Grosso (UFMT) e faz parte do corpo docente do Mestrado Nacional Profissional em Ensino de Física e do Programa de Pós Graduação de Física Ambiental, atuando principalmente nos seguintes temas: machine learning, redes neurais, escoamento multifásico e ensino de física.

Josiel Maimone de Figueiredo , Universidade Federal de Mato Grosso

É Professor Titular do Instituto de Computação da Universidade Federal de Mato Grosso (IC-UFMT), onde atua no Programa de Pós-Graduação em Propriedade Intelectual e Transferência de Tecnologia para a Inovação (PROFNIT). Desenvolve pesquisas na área de Ciência da Computação, com ênfase em banco de dados, tratamento de dados ambientais, dados semi-estruturados, dados textuais, big data e software livre. Possui graduação em Engenharia de Computação pela Universidade Federal de São Carlos - UFSCar (1998); mestrado em Ciência da Computação, com ênfase em Banco de Dados, pela Universidade Federal de São Carlos (2000); doutorado em Ciências da Computação e Matemática Computacional, com ênfase em Banco de Dados, pela Universidade de São Paulo - USP (2005); e Pós-doutorado no Departamento de Ciência da Computação da Universidade de Sheffield, Inglaterra(2018) e também no Departamento de Computação da Imperial College (Londres)

Citas

AWAD, Mariette; KHANNA, Rahul. Efficient learning machines: theories, concepts, and applications for engineers and system designers. Springer nature, 2015.

BONFANTE, Andreia Gentil et al. Uma abordagem computacional para preenchimento de falhas em dados micro meteorológicos. Revista Brasileira de Ciências Ambientais (RBCIAMB), n. 27, p. 61-70, 2013.

BREIMAN, Leo et al. Classification and regression trees. CRC press, 1984.

CONNELLY, Lynne. Logistic regression. Medsurg Nursing, v. 29, n. 5, p. 353-354, 2020.

COULIBALY, P.; EVORA, N. D. Comparison of neural network methods for infilling missing daily weather records. Journal of hydrology, v. 341, n. 1-2, p. 27-41, 2007.

CHATTERJEE, Soumyadeep et al. Sparse group lasso for regression on land climate variables. In: 2011 IEEE 11th International Conference on Data Mining Workshops. IEEE, 2011. p. 1-8.

FIX, Evelyn; HODGES, Joseph Lawson. Discriminatory analysis. Nonparametric discrimination: Consistency properties. International Statistical Review/Revue Internationale de Statistique, v. 57, n. 3, p. 238-247, 1989.

FRIEDMAN, Jerome; HASTIE, Trevor; TIBSHIRANI, Rob. Regularization paths for generalized linear models via coordinate descent. Journal of statistical software, v. 33, n. 1, p. 1, 2010.

GARRETA, Raul; MONCECCHI, Guillermo. Learning scikit-learn: machine learning in python. Packt Publishing Ltd, 2013.

KAJEWSKA-SZKUDLAREK, Joanna; STAŃCZYK, Justyna. Filling missing meteorological data with Computational Intelligence methods. In: ITM web of conferences. EDP Sciences, 2018. p. 00015.

KATİPOĞLU, Okan Mert; REŞAT, A. C. A. R. Estimation of missing temperature data by Artificial Neural Network (ANN). Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, v. 12, n. 2, p. 431-438, 2021.

LATIF, Sarmad Dashti et al. Assessing rainfall prediction models: Exploring the advantages of machine learning and remote sensing approaches. Alexandria Engineering Journal, v. 82, p. 16-25, 2023.

MATSUMOTO, Makoto; NISHIMURA, Takuji. Mersenne twister: a 623-dimensionally equidistributed uniform pseudo-random number generator. ACM Transactions on Modeling and Computer Simulation (TOMACS), v. 8, n. 1, p. 3-30, 1998.

MEGETO, Guilherme AS et al. Decision tree for classification of soybean rust occurence in commercial crops based on weather variables. Engenharia Agrícola, v. 34, p. 590-599, 2014.

MOHAMMADI, Kasra et al. Extreme learning machine based prediction of daily dew point temperature. Computers and Electronics in Agriculture, v. 117, p. 214-225, 2015.

MORI, Hiroyuki; TAKAHASHI, Akira. A data mining method for selecting input variables for forecasting model of global solar radiation. In: PES T&D 2012. IEEE, 2012. p. 1-6.

MORRIS, Clint; YANG, Jidong J. Effectiveness of resampling methods in coping with imbalanced crash data: Crash type analysis and predictive modeling. Accident Analysis & Prevention, v. 159, p. 106240, 2021.

PATRICK, Edward A.; FISCHER III, Frederic P. A generalized k-nearest neighbor rule. Information and control, v. 16, n. 2, p. 128-152, 1970.

PEDRO, Hugo TC; COIMBRA, Carlos FM. Nearest-neighbor methodology for prediction of intra-hour global horizontal and direct normal irradiances. Renewable Energy, v. 80, p. 770-782, 2015.

RAOUHI, El Mehdi; LACHGAR, Mohamed; KARTIT, Ali. Comparative Study of Regression and Regularization Methods: Application to Weather and Climate Data. In: WITS 2020: Proceedings of the 6th International Conference on Wireless Technologies, Embedded, and Intelligent Systems. Springer Singapore, 2022. p. 233-240.

SMOLA, Alex J.; SCHÖLKOPF, Bernhard. A tutorial on support vector regression. Statistics and computing, v. 14, p. 199-222, 2004.

TCHAKONTE, Siméon et al. Using machine learning models to assess the population dynamic of the freshwater invasive snail Physa acuta Draparnaud, 1805 (Gastropoda: Physidae) in a tropical urban polluted streams-system. Limnologica, v. 99, p. 126049, 2023.

THOBER, Stephan et al. Multi-model ensemble projections of European river floods and high flows at 1.5, 2, and 3 degrees global warming. Environmental Research Letters, v. 13, n. 1, p. 014003, 2018.

TOSUNOĞLU, Fatih et al. Monthly streamflow forecasting using machine learning. Erzincan University Journal of Science and Technology, v. 13, n. 3, p. 1242-1251, 2020.

WEN, Jiabao et al. Big data driven marine environment information forecasting: a time series prediction network. IEEE Transactions on Fuzzy Systems, v. 29, n. 1, p. 4-18, 2020.

XU, Yongjun et al. Artificial intelligence: A powerful paradigm for scientific research. The Innovation, v. 2, n. 4, 2021.

Publicado

16/10/2024

Cómo citar

Silva Junior, A. A. da, Gomes , R. de S. R., De Musis , C. R., Novais , J. W. Z., Maionchi , D., & Figueiredo , J. . M. de. (2024). Imputación de fallos en series temporales de temperatura del aire: una comparación entre modelos de machine learning. Revista Brasileña De Climatología, 35(20), 362–377. https://doi.org/10.55761/abclima.v35i20.17649

Número

Sección

Artigos