Emprego de modelos generativos para envelhecimento facial

Kemmer, Bruno Abreu

doi:10.11606/D.100.2023.tde-15092023-125055

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.100.2023.tde-15092023-125055

Document

Mémoire de Maîtrise

Auteur

Kemmer, Bruno Abreu (Catálogo USP)

Nom complet

Bruno Abreu Kemmer

Adresse Mail

Unité de l'USP

Escola de Artes, Ciências e Humanidades

Domain de Connaissance

Méthodologie et Informatique Techniques

Date de Soutenance

2023-06-07

Editeur

São Paulo, 2023

Directeur

Lima, Clodoaldo Aparecido de Moraes (Catálogo USP)

Jury

Lima, Clodoaldo Aparecido de Moraes (Président)
Hernandez, Emílio Del Moral
Pistori, Hemerson

Titre en portugais

Emprego de modelos generativos para envelhecimento facial

Mots-clés en portugais

Envelhecimento facial
GANs
Modelos de difusão
Modelos generativos
Progressão facial
Redes generativas adversárias

Resumé en portugais

Diversos fatores podem causar o envelhecimento facial: exposição solar, tabagismo, viver em um ambiente poluído, estresse e fatores genéticos. Esses elementos tornam a tarefa de envelhecimento facial por meio de algoritmos bastante complexa, e ao fazê-la, três atributos são desejados na face envelhecida, a saber, i) essa deve ter a idade esperada; ii) deve manter as características individuais; iii) a face sintética deve, preferencialmente, ter alta qualidade. Dois tipos de métodos são tradicionalmente utilizados nessa tarefa: métodos baseados em protótipos e métodos baseados em modelagem. Os primeiros calculam a diferença entre as médias de faixas de idades e os últimos utilizam modelos paramétricos para simular a passagem do tempo. Ambos falham em manter as características individuais ao levar a imagem de um domínio mais jovem para um envelhecido. Com os avanços em visão computacional, modelos generativos têm sido utilizados nessa tarefa, em especial, Redes Adversárias Generativas (GANs) e recentemente, modelos de difusão. Com essas abordagens é possível gerar imagens realistas de indivíduos envelhecidos. Essas redes podem codificar informações latentes possibilitando que o modelo gerador crie novas imagens condicionais a uma face dada como entrada. Isso pode levar a uma melhora no desempenho dos sistemas biométricos, auxiliar na busca de pessoas desaparecidas, na identificação de pessoas procuradas de forma automatizada e diversas outras aplicações no entretenimento. %Na última década, um número crescente de publicações teve como foco a aplicação de modelos generativos no estado da arte no envelhecimento facial. Na última década, houve um número crescente de publicações com foco na aplicação de modelos generativos para envelhecimento facial. A maioria dessas adaptaram uma arquitetura geral para atender aos desafios da tarefa adotada. Este trabalho descreve detalhadamente as arquiteturas mais importantes encontradas na literatura, as principais bases de dados e suas aplicações. Além disso, apresenta dois grupos de experimentos realizados: o primeiro compara os resultados de três modelos publicados entre 2017 e 2018 que utilizaram redes GANs, em três bases de dados: FG-NET, UTKFaces e CACD. O segundo grupo realiza um estudo comparativo entre dois modelos baseados em redes GANs, que foram publicados entre 2020 e 2021, com dois modelos de difusão condicionais que executam edição das imagens, os quais foram publicados entre 2022 e 2023 e empregaram base de imagens de alta resolução FFHQ-Aging (base de imagens FFHQ com a idade estimada das faces). Por fim, para medir a efetividade do envelhecimento facial nas imagens, modelos estimadores de idade e de verificação facial foram utilizados. Os resultados mostraram que GANs treinadas especialmente para essa tarefa têm obtido resultados superiores, porém, modelos de difusão condicionais genéricos, como os utilizados nesse último grupo de experimentos obtiveram resultados consideráveis, mesmo sem terem sido treinados para essa tarefa. Além do mais, muitos trabalhos recentes têm apresentado melhoria nos modelos de difusão, portanto, são esperados rápidos avanços em suas arquiteturas.

Titre en anglais

Face aging using generative models

Mots-clés en anglais

Autoencoders
Diffusion models
Face aging
Face progression
GANs
Generative Adversarial Networks
Generative models

Resumé en anglais

Several factors can cause facial aging: sun exposure, smoking, living in a polluted environment, stress, and genetic factors. These elements make the task of facial aging through algorithms complex, and when doing it, three attributes are desired, the aged face has the expected age; the maintenance of individual characteristics, and realistic synthetic images. Traditionally, two kinds of modeling techniques were used in this task: prototype methods and modeling methods. The first calculates the mean difference between age groups, and the latter uses parametric models to simulate the change over time. However, both approaches fail to keep the individual characteristics when transforming a face from a younger domain to an aged one. With advances in computer vision, generative models have been applied to perform this task, especially generative adversarial networks (GANs) and, recently, diffusion models. With them, it becomes possible to generate realistic aged faces of individuals. These networks can encode latent information enabling a generator model to create new images conditional on an input image. This could lead to improvements in biometric systems. Doing so could help to search for missing persons and identify criminals in an automated way, in addition to multiple applications in entertainment. In the last decade, an increasing number of publications focused on applying state-of-the-art generative models on facial aging. Most of these works were done by customizing a general architecture to fit the aging problem's needs. This work details the most frequent architectures found in literature, the main available benchmark databases, and their applications. Additionally, two groups of experiments were tested: the first comparing the results of three models published between 2017 and 2018 that use GANs networks in three frequently used databases: FG-NET, UTKFaces, and CACD. The second group presents a comparative study between two models based on GANs networks which were published between 2020 and 2021 with two conditional diffusion models that perform image editing. These were published between 2022 and 2023 and use the high-resolution image base FFHQ- Aging (the image base FFHQ with the estimated age of the photos). Finally, to measure the effectiveness of facial aging in photos, age estimation, and facial verification models are used. The results showed that GANs specially trained for this task have obtained superior results, however, generic conditional diffusion models, such as those used in the last group of experiments, got considerable results, even without having been trained for this task. Furthermore, many recent works have shown improvement in diffusion models' components. Therefore, rapid advances in their architectures are expected.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

DissertacaoBrunoKemmer.pdf (19.38 Mbytes)

Date de Publication

2024-07-24

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.