• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Master's Dissertation
DOI
https://doi.org/10.11606/D.55.2023.tde-15012024-160021
Document
Author
Full name
Davi Keglevich Neiva
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2023
Supervisor
Committee
Boas, Paulino Ribeiro Villas (President)
Comin, Cesar Henrique
Izbicki, Rafael
Rodrigues, Francisco Aparecido
Title in Portuguese
Interpretação de modelos complexos de aprendizado de máquina
Keywords in Portuguese
Aprendizado de máquina
Interpretabilidade de modelos
Modelos complexos
Valores SHAP
Abstract in Portuguese
Algoritmos de aprendizado de máquina são amplamente utilizados em diversos setores da sociedade e desempenham um papel significativo na tomada de decisões em vários contextos. Esses algoritmos são capazes de criar modelos cada vez mais sofisticados, que conseguem capturar relações complexas nos dados para alcançar resultados mais acurados. No entanto, à medida que esses modelos desenvolvem relações mais complexas, a compreensão de seu funcionamento também se torna mais desafiadora. Esses modelos de aprendizado de máquina frequentemente incorporam centenas, ou até mesmo milhares, de variáveis. Neste trabalho, apresentamos alguns algoritmos de aprendizado de máquina, abordamos sua complexidade e discutimos a importância de compreender o funcionamento desses modelos complexos. Além disso, exploramos a metodologia SHAP para interpretar modelos de boosting (classificação e regressão) em 3 estudos de caso distintos: identificação dos perfis mais propensos a alcançarem uma nota mínima no ENEM - Exame Nacional do Ensino Médio; desenvolvimento de um score de risco de crédito de uma cooperativa de empresas e avaliação da concentração de carbono em amostras de solo de diferentes biomas brasileiros a partir de dados de espectroscopia. Com a utilização da metodologia SHAP foi possível trazer informações complementares às do modelo em cada um desses casos, revelando padrões de características socio econômicas dos candidatos do ENEM, características das empresas que o modelo aprendeu no desenvolvimento do score de crédito e informações relevantes sobre a composição dos solos. A interpretação dos modelos não apenas aprimora a análise dos conjuntos de dados, mas também possibilita a identificação de vieses amostrais, a avaliação do aprendizado obtido durante a construção dos modelos e, até mesmo, a revelação de informações que podem não ser prontamente discerníveis nos dados.
Title in English
Complex machine learning models interpretation
Keywords in English
Complex models
Machine learning
Model interpretability
SHAP values
Abstract in English
Machine learning algorithms are widely used in various sectors of society and play a significant role in decision-making in various contexts. These algorithms are capable of creating increasingly sophisticated models that can capture complex relationships in data to achieve more accurate results. However, as these models develop more complex relationships, understanding how they work also becomes more challenging. Machine learning models often incorporate hundreds, or even thousands, of variables. In this work, we present some machine learning algorithms, discuss their complexity, and emphasize the importance of understanding the functioning of these complex models. Furthermore, we explored the SHAP methodology to interpret boosting models (classification and regression) in three distinct case studies: identifying profiles most likely to achieve a minimum score on the ENEM - National High School Exam; developing a credit risk score for a cooperative of companies, and evaluating carbon concentration in soil samples from different Brazilian biomes using spectroscopy data. With the use of the SHAP methodology, it was possible to provide additional information to the model in each of these cases, revealing patterns of socioeconomic characteristics of ENEM candidates, characteristics of the companies that the model learned in the development of the credit score, and relevant information about soil composition. The interpretation of the models not only enhances the analysis of the datasets but also allows for the identification of sample biases, evaluation of the learning acquired during model construction, and even the revelation of information that may not be readily discernible in the data.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2024-01-15
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.