Comparação entre métodos de imputação de dados em diferentes intensidades amostrais na série homogênea de precipitação pluvial da ESALQ

Gasparetto, Suelen Cristina

doi:10.11606/D.11.2019.tde-23082019-150302

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.11.2019.tde-23082019-150302

Documento

Dissertação de Mestrado

Autor

Gasparetto, Suelen Cristina (Catálogo USP)

Nome completo

Suelen Cristina Gasparetto

E-mail

Unidade da USP

Escola Superior de Agricultura Luiz de Queiroz

Área do Conhecimento

Estatística e Experimentação Agronômica

Data de Defesa

2019-06-07

Imprenta

Piracicaba, 2019

Orientador

Piedade, Sonia Maria de Stefano (Catálogo USP)

Banca examinadora

Piedade, Sonia Maria de Stefano (Presidente)
Angelocci, Luiz Roberto
Ozaki, Vitor Augusto
Rodrigues, Josiane

Título em português

Comparação entre métodos de imputação de dados em diferentes intensidades amostrais na série homogênea de precipitação pluvial da ESALQ

Palavras-chave em português

MICE
PMM
Chuva
Homogeneidade de série climatológica
Imputação múltipla
Random forest
Regressão linear via método bootstrap

Resumo em português

Problemas frequentes nas análises estatísticas de informações meteorológicas são a ocorrência de dados faltantes e ausência de conhecimento acerca da homogeneidade das informações contidas no banco de dados. O objetivo deste trabalho foi testar e classificar a homogeneidade da série de precipitação pluvial da estação climatológica convencional da ESALQ, no período de 1917 a 1997, e comparar três métodos de imputação de dados, em diferentes intensidades amostrais (5%, 10% e 15%) de informações faltantes, geradas de forma aleatória. Foram utilizados três testes de homogeneidade da série: Pettitt, Buishand e normal padrão. Para o "preenchimento" das informações faltantes, foram comparados três métodos de imputação múltipla: PMM (Predictive Mean Matching), random forest e regressão linear via método bootstrap, em cada intensidade amostral de informações faltantes. Os métodos foram utilizados por meio do pacote MICE (Multivariate Imputation by Chained Equations) do R. A comparação entre cada procedimento de imputação foi feita por meio da raiz do erro quadrático médio, índice de exatidão de Willmott e o índice de desempenho. A série de chuva foi entendida como de classe 1, ou seja, "útil" - Nenhum sinal claro de falta de homogeneidade foi aparente e, o método que resultou em menores valores da raiz quadrada dos erros e maiores índices foi o PMM, em especial na intensidade de 10% de informações faltantes. O índice de desempenho para os três métodos de imputação de dados em todas as intensidades de observações faltantes foi considerado "Péssimo"

Título em inglês
Comparison between data imputation methods at different sample intensities in the ESALQ homogeneous rainfall series

Palavras-chave em inglês
Homogeneity of climatological series
MICE
Multiple imputation
PMM
Rainfall
Random forest
Regression linear by method bootstrap

Resumo em inglês

Frequent problems in the statistical analyzes of meteorological information are the occurrence of missing data and missing of knowledge about the homogeneity of the information contained in the data base. The objective of this work was to test and classify the homogeneity of the rainfall series of the conventional climatological station of the ESALQ from 1917 to 1997 and to compare three methods of data imputation in different sample intensities (5%, 10% and 15%), of missing data, generated in a random way. Three homogeneity tests were used: Pettitt, Buishand and standard normal. For the "filling" of missing information, three methods of multiple imputation were compared: PMM (Predictive Mean Matching), random forest and linear regression via bootstrap method, in each sampling intensity of missing information. The methods were used by means of the MICE (Multivariate Imputation by Chained Equations) package of R. The comparison of each imputation procedure was done by root mean square error, Willmott's accuracy index and performance index. The rainfall series was understood to be class 1 "useful" - No clear sign of lack of homogeneity was apparent and the method that resulted in smaller values of the square root of the errors and higher indexes was the PMM, in particular the intensity of 10% of missing information. The performance index for the three methods of imputation the data at all missing observation intensities was considered "Terrible"

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Suelen_Cristina_Gasparetto_versao_revisada.pdf (2.95 Mbytes)

Data de Publicação
2019-08-23

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.