Tese de Doutorado

Documento
Tese de Doutorado
Nome completo
Wesley Seidel Carvalho
E-mail
Unidade da USP
Instituto de Matemática, Estatística e Ciência da Computação
Programa ou Especialidade
Data de Defesa
2026-03-06
Imprenta
São Paulo, 2026
Orientador
Banca examinadora
Finger, Marcelo (Presidente)
Aluisio, Sandra Maria
Gauy, Marcelo Matheus
Navas, Ana Luiza Pereira Gomes Pinto
Ribeiro, Carlos Henrique Costa
Título em português
Análise automática da fluência de leitura de pseudopalavras baseada em aprendizado de máquina
Palavras-chave em português
Aprendizado de máquina; Aprendizado de métricas profundas; Fluência de leitura oral; Processamento de linguagem; Redes neurais Triplets
Resumo em português
A avaliação da fluência da leitura oral, seja ela automática ou manual, tem sido amplamente estudada no contexto internacional e diversos trabalhos a reconhecem como competência fundamental na aquisição dos processos inerentes à compreensão da leitura. A análise automática da fluência de leitura oral visa empregar técnicas computacionais aplicadas sobre leituras gravadas para extrair, de forma autônoma, os parâmetros necessários à avaliação da fluência oral de um leitor. Tradicionalmente, a fluência é mensurada a partir de diferentes tipos de tarefas, tais como a leitura de textos, listas de palavras e lista de pseudopalavras. A leitura de pseudopalavras apresenta um desafio técnico particular para sistemas automáticos, pois, por se tratarem de termos inexistentes na língua, limitam a eficácia de modelos tradicionais de reconhecimento de fala. Esta tese tem por objetivo desenvolver e avaliar uma abordagem baseada em redes neurais profundas para classificar automaticamente a correção de leituras isoladas de pseudopalavras, superando limitações de métodos dependentes de transcrição textual. O desenvolvimento experimental foi estruturado em três etapas: (i) estabelecimento de um baseline utilizando reconhecimento automático de fala (ASR) aplicado a leituras completas e isoladas; (ii) criação e revisão de uma nova base de dados segmentada por amostras de pseudopalavras e anotada com apoio de especialistas, construída a partir de um conjunto de leituras completas parcialmente coletadas e anotadas no âmbito de um projeto de pesquisa desenvolvido em parceria entre o MEC e o ITA; e (iii) proposição de uma arquitetura neural composta por três módulos: extração de embeddings acústicos por meio do modelo ASR-CORAA-v1, uma versão do Wav2Vec 2.0 pré-treinada para o português; projeção desses embeddings em um espaço métrico discriminativo através de um encoder treinado por uma Rede Triplet utilizando uma função de perda triplet (Triplet Loss); e, por fim, um classificador binário do tipo MLP que decide a aceitação da leitura para a pseudopalavra alvo. A integração de dados sintéticos gerados com um sintetizador de voz (TTS ) também foi investigada como estratégia para ampliar e balancear o conjunto de treinamento, além de avaliar sua viabilidade como substituto de dados reais no processo de treinamento. Os resultados indicam que a abordagem proposta, ba seada em Redes Triplet, supera significativamente o baseline ASR, apresentando maior robustez na identificação de pronúncias incorretas, melhor equilíbrio entre verdadeiros positivos e negativos, além de eliminar a dependência da transcrição textual, mitigando o problema do mascaramento de pronúncias inadequadas erroneamente identificadas como corretas.
Título em inglês
Automatic analysis of pseudoword reading fluency based on machine learning
Palavras-chave em inglês
Automatic speech recognition; Coraa; Deep metric learning; Deep neural networks; Oral reading fluency; Triplet loss; Wav2Vec 2.0
Resumo em inglês
The assessment of oral reading fluency, whether automatic or manual, has been widely studied in the international context, and several works recognise it as a fundamental competence in the acquisition of the processes inherent to reading comprehension. The automatic analysis of oral reading fluency aims to employ computational techniques applied to recorded readings to automatically extract the parameters necessary for evaluating a readers oral fluency. Traditionally, fluency is measured through different types of tasks, such as reading texts, word lists, and pseudoword lists. The reading of pseudowords presents a particular technical challenge for automatic systems since, as they are terms that do not exist in the language, they limit the effectiveness of traditional speech recognition models. This thesis aims to develop and evaluate a deep neural network-based approach to automatically classify the correctness of isolated pseudoword readings, overcoming the limitations of methods dependent on textual transcription. The experimental development was structured in three stages: (i) establishment of a baseline using automatic speech recognition (ASR) applied to complete and isolated readings; (ii) creation and revision of a new dataset segmented by pseudoword samples and annotated with expert support, built from a set of complete readings partially collected and annotated within the scope of a research project developed in partnership between the MEC and the ITA; and (iii) proposal of a neural architecture composed of three modules: extraction of acoustic embeddings using the ASR-CORAA-v1 model, a Portuguese-pretrained version of Wav2Vec 2.0; projection of these embeddings into a discriminative metric space through an encoder trained by a Triplet Network using the Triplet Loss function; and finally, a binary MLP classifier that decides the acceptance of the reading for the target pseudoword. The integration of synthetic data generated with a text-to-speech (TTS ) synthesizer was also investigated as a strategy to expand and balance the training set, as well as to evaluate its viability as a substitute for real data in the training process. The results indicate that the proposed approach, based on Triplet Networks, significantly outperforms the ASR baseline, demonstrating greater robustness in identifying incorrect pronunciations, better balance between true positives and negatives, and the elimination of dependence on textual transcription, mitigating the problem of inadequate pronunciations erroneously identified as correct.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Data de Publicação
2026-05-13

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.

Serviços

Carregando...