Dissertação de Mestrado

Documento
Dissertação de Mestrado
Nome completo
Lucas Helfstein Rocha dos Santos
E-mail
Unidade da USP
Instituto de Matemática, Estatística e Ciência da Computação
Programa ou Especialidade
Data de Defesa
2026-03-17
Imprenta
São Paulo, 2026
Orientador
Banca examinadora
Braghetto, Kelly Rosa (Presidente)
Aguiar, Carla Silva Rocha
Ogasawara, Eduardo Soares
Título em inglês
Mitigating drift in machine learning systems through continuous input monitoring: an architectural proposal and empirical evaluation of detection methods
Palavras-chave em inglês
Concept drift; Data drift; Machine learning systems; MLOps; Software architecture
Resumo em inglês
Machine learning (ML) systems engineering represents a paradigm shift from conventional software engineering. While traditional systems are governed by deterministic logic, ML systems are fundamentally shaped by data, meaning that their robustness lies not only in the quality of the code but also in the stability of the relationship between training data and production data. This relationship, however, is inherently fragile. Fluctuations, seasonal trends, or changes in the operating environment can lead to data drift and concept drift, silently and continuously eroding the ML model's performance. Therefore, ensuring the robustness and reliability of ML systems in production is a challenge that transcends code maintenance, requiring continuous vigilance over its most volatile component: data. The adoption of large-scale machine learning systems has advanced more rapidly than the development of formal architectural frameworks to guide their design, governance, and long-term maintenance. This dissertation addresses this gap by proposing a component-based conceptual architecture that operationalizes robust MLOps practices. The architecture improves traceability and adaptability by organizing the system into clearly defined subsystems responsible for managing the entire machine learning lifecycle. It is supported by a comprehensive data model that ensures all artifacts, from raw data to deployed models, are findable, accessible, interoperable, and reusable, enabling effective feedback loops and continuous monitoring of inputs. The central principle of the architecture is that continuous monitoring of input data is essential to maintain model performance in dynamic environments. To validate this principle, a series of empirical experiments was conducted with datasets that exhibit both concept drift and data drift, simulating the challenges of real production scenarios. The Hellinger Distance Drift Detection method was used as the main detection technique, complemented by a proposed variant based on Jensen-Shannon divergence and a comparative analysis with the Kolmogorov-Smirnov test. The results demonstrate that timely model retraining, triggered by input monitoring, generates substantial performance gains across all types of drift. Although the Kolmogorov-Smirnov test showed high sensitivity, the Jensen-Shannon-based approach offered significant computational efficiency gains over the Hellinger distance. These findings confirm the critical role of input monitoring and provide empirical validation for the proposed architecture, pointing to a concrete path for building more robust, adaptive, and sustainable machine learning systems.
Título em português
Mitigando desvios em sistemas de aprendizado de máquina por meio de monitoramento contínuo das entradas: uma proposta arquitetural e avaliação empírica de métodos de detecção
Palavras-chave em português
Arquitetura de software; Desvio de conceito; Desvio de dados; MLOps; Sistemas de aprendizado de máquina
Resumo em português
A engenharia de sistemas de aprendizado de máquina (AM) representa uma mudança de paradigma em relação à engenharia de software convencional. Enquanto sistemas tradicionais são governados por lógica determinística, os sistemas de AM são fundamentalmente moldados pelos dados, fazendo com que sua robustez não resida apenas na qualidade do código, mas na estabilidade da relação entre os dados de treinamento e os dados de produção. Essa relação, no entanto, é inerentemente frágil. Flutuações, tendências sazonais ou mudanças no ambiente operacional podem levar a desvios de dados (data drifts) e de conceito (concept drifts), erodindo de forma silenciosa e contínua o desempenho dos modelos de AM. Portanto, garantir a robustez e a confiabilidade de sistemas de AM em produção é um desafio que transcende a manutenção de código, exigindo uma vigilância contínua sobre seu componente mais volátil: os dados. A adoção de sistemas de aprendizado de máquina em grande escala avançou mais rapidamente do que o desenvolvimento de arcabouços arquiteturais formais para orientar seu projeto, governança e manutenção de longo prazo. Esta dissertação aborda essa lacuna ao propor uma arquitetura conceitual baseada em componentes que operacionaliza práticas robustas de MLOps. A arquitetura aprimora a rastreabilidade e a adaptabilidade ao organizar o sistema em subsistemas claramente definidos, responsáveis por gerenciar todo o ciclo de vida do aprendizado de máquina. Ela é apoiada por um modelo de dados abrangente que garante que todos os artefatos, desde dados brutos até modelos implantados, sejam localizáveis, acessíveis, interoperáveis e reutilizáveis, possibilitando ciclos de feedback eficazes e monitoramento contínuo das entradas. O princípio central da arquitetura é que o monitoramento contínuo dos dados de entrada é essencial para manter o desempenho dos modelos em ambientes dinâmicos. Para validar esse princípio, foi conduzida uma série de experimentos empíricos com conjuntos de dados que apresentam tanto desvio de conceito quanto desvio de dados, simulando os desafios de cenários reais de produção. O método Hellinger Distance Drift Detection foi utilizado como técnica principal de detecção, complementado por uma variante proposta baseada na divergência de Jensen-Shannon e por uma análise comparativa com o teste de Kolmogorov-Smirnov. Os resultados demonstram que o retreinamento oportuno de modelos de AM, acionado pelo monitoramento das entradas, gera ganhos substanciais de desempenho em todos os tipos de desvio. Embora o teste de Kolmogorov-Smirnov tenha apresentado alta sensibilidade, a abordagem baseada em Jensen-Shannon apresentou ganhos significativos de eficiência computacional em relação à distância de Hellinger. Esses achados confirmam o papel crítico do monitoramento das entradas e fornecem validação empírica para a arquitetura proposta, apontando um caminho concreto para a construção de sistemas de aprendizado de máquina mais robustos, adaptativos e sustentáveis.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Data de Publicação
2026-05-13

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.

Serviços

Carregando...