• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
https://doi.org/10.11606/T.55.2019.tde-22082019-105334
Documento
Autor
Nome completo
Jadson Castro Gertrudes
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2019
Orientador
Banca examinadora
Lopes, Alneu de Andrade (Presidente)
Cerri, Ricardo
Lelis, Levi Henrique Santana de
Liang, Zhao
Título em inglês
Semi-supervised learning approaches with applications in Medicinal Chemistry
Palavras-chave em inglês
Density- based clustering
Semi-supervised classification
Semi-supervised clustering
Structure-activity relationship
Resumo em inglês
Semi-supervised learning is drawing increasing attention in the era of big data, as the gap between the abundance of cheap, automatically collected unlabeled data and the scarcity of labeled data that are laborious and expensive to obtain is dramatically increasing. In this thesis, we first introduce a unified view of density-based clustering algorithms. Then, we build upon this view and bridge the areas of semi-supervised clustering and classification under a common umbrella of density-based techniques. We show that there are close relations between density-based clustering algorithms and the graph-based approach for transductive classification. These relations are then used as a basis for a new framework for semi-supervised classification based on building-blocks from density-based clustering. This framework is not only efficient and effective, but it is also statistically sound. We also generalize the core algorithm of the framework HDBSCAN* so that it can also perform semi-supervised clustering by directly taking advantage of any fraction of labeled data that may be available, rather than instance-level pairwise constraints. Experimental results on a large collection of datasets show the advantages of the proposed approach both for semi-supervised classification, as well as for semi-supervised clustering. In addition, we evaluate the semi-supervised learning algorithms to determine relationships between chemical structure and biological activity in datasets from Medicinal Chemistry. The datasets evaluated in this area are characterized by a low number of labeled examples, a high dimensionality, and in some cases, do not have a clear relationship between chemical structure and biological activity, which makes it difficult to use classification techniques and analyze chemical phenomena. We implement and validate semi-supervised classification approaches that are appropriate for data analysis in Medicinal Chemistry.
Título em português
Abordagens de aprendizado semissupervisionado com aplicações em Química Medicinal
Palavras-chave em português
Agrupamento baseado em densidade
Agrupamento semissupervisionado
Análise de relação entre estrutura química e atividade biológica
Classificação semissupervisionada
Resumo em português
O aprendizado semissupervisionado obteve, no decorrer do tempo, cada vez mais significância na área de big data, uma vez que a lacuna entre a abundância de dados não rotulados coletados de forma rápida e barada e a escassez de dados rotulados que são trabalhosos e caros de obter, está aumentando drasticamente. No presente documento, apresentamos uma visão unificada dos algoritmos de agrupamento baseados em densidade. Depois, utilizamos essa visão unificada para construção de uma ponte entre as áreas de agrupamento e classificação semissupervisionadas. Mostramos que existem relações entre algoritmos de agrupamento baseados em densidade e a abordagem baseada em grafos para classificação transdutiva. Essas relações são então usadas como base para um novo framework de classificação semissupervisionada com base em algoritmos baseados em densidade. Assim, definimos um novo framework que pode ser dividido em pequenos blocos de construção, com base nos algoritmos baseado em densidade. Essa estrutura é eficiente, eficaz e também estatisticamente sólida. Também generalizamos o framework HDBSCAN* para que ele também pudesse realizar agrupamento semissupervisionado utilizando diretamente qualquer fração de dados rotulados que possam estar disponíveis, ao invés de um conjunto de restrições. Resultados experimentais em uma grande coleção de base de dados mostram as vantagens da abordagem proposta tanto para classificação semissupervisionada quanto para o agrupamento semissupervisionado. Além disso, avaliamos os algoritmos de aprendizado semissupervisionados para determinar as relações entre a estrutura química e a atividade biológica em conjuntos de dados da área de Química Medicinal. Os conjuntos de dados avaliados nesta área são caracterizados por um baixo número de exemplos rotulados, alta dimensionalidade e, em alguns casos, não possuem uma relação clara entre estrutura química e atividade biológica, o que dificulta a aplicação de técnicas aprendizado supervisionado. Após implementação e validação das abordagens semissupervisionadas, verificamos que os mesmos podem ser uma boa opção para análise de dados em Química Medicinal.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2019-10-18
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.