• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
https://doi.org/10.11606/T.55.2019.tde-29042019-145141
Document
Author
Full name
Kelly Cristina Ramos da Silva
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2019
Supervisor
Committee
Ponti, Moacir Antonelli (President)
Alencar, Airlane Pereira
Guzmán, Jorge Luis Bazán
Lorena, Ana Carolina
Title in English
Robust outlier labeling rules for light-tailed and heavy-tailed Data
Keywords in English
Evaluation measure
Outlier rules
Outside rate
Robust methods
Skewness or tail heaviness
Abstract in English
Outlier rules are used to detect outliers in univariate data. A commonly used outlier rule is based on a graphical tool for univariate data analysis, named the boxplot. However, it is well known that boxplot exhibits significantly lower performance for skewed distributions, in comparison to the symmetric case. In order to overcome this deficiency, an outlier rule known as adjusted boxplot, has been proposed in the literature. Adjusted boxplot modifies the classical boxplot by incorporating into it a skewness measure. Although this modification has resulted in a state-of-the-art version of the classical boxplot, it has the drawback of leading to a rule that is not flexible enough to permit easily to pre-specify a nominal outside rate. Furthermore, the adjusted boxplot can present, for some situations, significantly higher computational cost than the classical boxplot, since its computational complexity is O(nlogn), while the classical boxplot is O(n): In order to address those issues, this thesis proposes a more formal approach to deriving outlier rules that proved to produce rules which exhibit overall better performance than that of the adjusted boxplot, specially as the contamination level increases. Moreover, those proposed rules have the advantages of being more flexible and possessing lower computational cost than the adjusted boxplot. Furthermore, it is shown that the classical boxplot and many of its modifications or variations are unified by the same concept introduced by this thesis: quartile contrast. The problem with the outlier rules based on quartile contrast, as well as the adjusted boxplot, lies in the fact that they are more suitable for light-tailed data than for heavy-tailed data. For heavy-tailed data, it has been proposed in the literature an outlier rule known as the generalized boxplot. The main problem with the generalized boxplot lies in the fact it is very unstable, since a single outlier might dramatically affect its performance. In order to address this issue, the thesis uses the quartile contrast approach to deriving an outlier rule sensitive to tail heaviness. The experimental analysis show that the tail-heaviness sensitive outlier rule proposed by the thesis indeed presents more stable performance than the generalized boxplot. The performance evaluation of outlier rules is a problem on its own. Therefore, to measure performance of outlier rules, the thesis introduces the GME, a measure that has proved to be more effective to assess performance of outlier rules than the traditional measures involving only false positive rate and false negative rate.
Title in Portuguese
Regras robustas para rotular outliers em dados de caudas leves e caudas pesadas.
Keywords in Portuguese
Assimetria ou peso da cauda
Erro de rotulação
Medida de avaliação
Métodos robustos
Regras robustas
Abstract in Portuguese
As regras de outlier são usadas para detectar outlier em dados univariados. Uma regra de outlier comumente usada é baseada em uma ferramenta gráfica para análise univariada de dados, denominada boxplot. No entanto, é bem conhecido que o boxplot apresenta um desempenho significativamente inferior para distribuições assimétricas, em comparação com o caso simétrico. Para superar essa deficiência, uma regra de outlier conhecida como boxplot ajustado foi proposta na literatura. O boxplot ajustado é uma modificação do boxplot clássico, incorporando nele uma medida de assimetria. Embora o boxplot ajustado tenha resultado em uma versão melhorada, se comparada ao boxplot clássico, ele tem a desvantagem de ser uma regra não flexível o suficiente para permitir a pré-especificação de um erro nominal de rotulação. Além disso, o boxplot ajustado pode apresentar, para algumas situações, um custo computacional significativamente maior se comparado ao boxplot clássico, já que a sua complexidade computacional é O(nlogn), enquanto o boxplot clássico é O(n): A fim de abordar essas questões, esta tese propõe uma abordagem mais formal para deduzir regras de outlier que produzim regras que exibem um desempenho geral melhor do que o do boxplot ajustado, especialmente à medida que o nível de contaminação aumenta. Além disso, essas regras propostas têm as vantagens de serem mais flexíveis e possuírem menor custo computacional do que o boxplot ajustado. Além disso, é mostrado que o boxplot clássico e muitas de suas modificações ou variações são unificadas pelo mesmo conceito introduzido por esta tese: contraste de quartis. O problema com as regras de outlier baseadas em contraste de quartis, bem como o boxplot ajustado, reside no fato de que elas são mais adequadas para dados unimodais simétricos e assimétricos do que para dados com cauda pesada. Para dados de cauda pesada, foi proposto na literatura uma regra de outlier conhecida como boxplot generalizado. O principal problema com o boxplot generalizado está no fato de ele ser muito instável, já que um único outlier pode afetar drasticamente seu desempenho. Para resolver esse problema, a tese usa a abordagem contraste de quartis para deduzir uma regra de outlier sensível ao peso da cauda. As análises experimentais mostram que a regra de outlier sensível ao peso da cauda proposta pela tese realmente apresenta um desempenho mais estável do que o boxplot generalizado. A avaliação de desempenho de regras de outlier é um problema por si só. Portanto, para medir o desempenho de regras outlier, a tese apresenta a GME, uma medida que se mostrou mais eficaz para avaliar o desempenho de regras de outlier do que as medidas tradicionais envolvendo apenas taxa de falsos positivos e taxa de falsos negativos.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2019-10-16
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.