Reconhecimento automático do locutor usando pré-processamento em sons nasalizados com diversos classificadores neurais.

Sória, Roberto Amilton Bernardes

doi:10.11606/D.3.2001.tde-16092024-101602

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.3.2001.tde-16092024-101602

Documento

Dissertação de Mestrado

Autor

Sória, Roberto Amilton Bernardes (Catálogo USP)

Nome completo

Roberto Amilton Bernardes Soria

Unidade da USP

Escola Politécnica

Área do Conhecimento

Sistemas Eletrônicos

Data de Defesa

2001-06-08

Imprenta

São Paulo, 2001

Orientador

Cabral Junior, Euvaldo Ferreira (Catálogo USP)

Banca examinadora

Cabral Junior, Euvaldo Ferreira (Presidente)
Ramirez, Miguel Arjona
Weigang, Li

Título em português

Reconhecimento automático do locutor usando pré-processamento em sons nasalizados com diversos classificadores neurais.

Palavras-chave em português

Redes neurais

Resumo em português

Este trabalho avalia o reconhecimento do locutor utilizando diferentes tipos de redes neurais artificiais e um pré-processamento baseado nas correlações dos coeficientes mel-cepstrais. Primeiramente são mostradas as bases para o aprendizado das redes neurais e em seguida a importante teoria das redes é exposta. As redes utilizadas neste trabalho são de dois tipos diferentes. O Multi-Layer Perceptron (MLP), a LearnMatrix (LM) e a Radial Basis Function (RBF) são redes supervisionadas, enquanto a Self-Organizing Feature Finder (SOFF) é não supervisionada. Estas redes são comparadas na tarefa de reconhecimento do locutor. O pré-processamento do sinal de voz que utiliza as correlações dos coeficientes mel-cepstrais, chamados de MFC3, é mostrado e avaliado. A viabilidade da utilização destes coeficientes é reconhecida e os resultados obtidos apontam para o MLP junto com os MFC3 como sendo uma combinação que permite obter taxas elevadas na tarefa de reconhecimento do locutor. No entanto, os resultados mostrados para a rede binária LearnMatrix a definem como sendo uma ferramenta poderosa na avaliação prévia do sinal de voz.

Título em inglês

Untitled in english

Palavras-chave em inglês

Neural networks

Resumo em inglês

This work evaluates different types of artificial neural networks in a speaker recognition task and a front-end based on mel-frequency cepstral coefficients correlations. After the artificial neural networks fundamentals are presented, each neural network is explained. The networks that are used in this work are from two types. The Multi-Layer Perceptron (MLP), the LearnMatrix (LM) and the Radial Basis Function (RBF) are supervised networks while the Self-Organizing Feature Finder (SOFF) is self-organizing. These networks are compared in a speaker recognition task. The front-end processing using the mel-frequency cepstral coefficients correlations, called MFC3, is presented and evaluated. The use of these coefficients has been found promising and the results show that the combination of the MLP and the MFC3 allow achieving high recognition rates. However, the results shown for the LearnMatrix network make us believe that this network may be a powerful tool for a previous speech data evaluation. The ability of dimensionality reduction of the SOFF paradigm is also discussed.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

RobertoAmiltonBernardesSoriaDissert.pdf (3.15 Mbytes)

Data de Publicação

2024-09-16

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.