Identificação de locutor usando modelos de misturas de gaussianas.

Cardoso, Denis Pirttiaho

doi:10.11606/D.3.2009.tde-13072009-155208

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.3.2009.tde-13072009-155208

Documento

Dissertação de Mestrado

Autor

Cardoso, Denis Pirttiaho (Catálogo USP)

Nome completo

Denis Pirttiaho Cardoso

E-mail

Unidade da USP

Escola Politécnica

Área do Conhecimento

Sistemas Eletrônicos

Data de Defesa

2009-04-03

Imprenta

São Paulo, 2009

Orientador

Arjona Ramírez, Miguel (Catálogo USP)

Banca examinadora

Arjona Ramírez, Miguel (Presidente)
Burt, Phillip Mark Seymour
Sakane, Fernando Toshinori

Título em português

Identificação de locutor usando modelos de misturas de gaussianas.

Palavras-chave em português

Processamento de sinais acústicos
Processamento digital de voz
Reconhecimento de voz

Resumo em português

A identificação de locutor está relacionada com a seleção de um locutor dentro de um conjunto de membros pré-definidos e neste trabalho os experimentos foram realizados utilizando um sistema de identificação de locutor independente de texto baseado em modelos de mistura de gaussianas. Para realizar os testes, foi empregado o banco de voz TIMIT e sua correspondente versão corrompida por ruído de canal telefônico, isto é, NTIMIT. O aparelho fonador pode ser representado por coeficientes mel-cepstrais obtidos por meio de banco de filtros ou, alternativamente, por coeficientes de predição linear. Adicionalmente, a técnica de subtração da média cepstral é aplicada quando o banco de voz NITMIT é utilizado com o intuito de minimizar a distorção de canal intrínseca a ele. A componente da locução para a qual os coeficientes mel-cepstrais são calculados é obtida através de um detector de atividade de voz (DAV). No entanto, os DAVs são em geral sensíveis à relação de sinal-ruído da locução, sendo necessário adaptá-los para as condições de operação do sistema. É sugerida a integração no DAV de um estimador da relação de sinal-ruído baseado no método Minima Controlled Recursive Average (MCRA), que é necessário para permitir o tratamento de sinais tanto limpos quanto ruidosos. É observado que em locuções de elevada relação de sinal-ruído, como aquelas provenientes do banco de voz TIMIT, o método mais apropriado de extração dos coeficientes mel-cepstrais foi o padrão, isto é, baseado em banco de filtros, enquanto que para sinais de voz ruidosos a técnica de subtração da média cepstral aliada à extração dos coeficientes mel-cepstrais a partir de coeficientes de predição linear revelou os melhores resultados.

Título em inglês

Speaker identification using Gaussian mixture models.

Palavras-chave em inglês

Acustic signal processing
Digital speech processing
Speech recognition

Resumo em inglês

Speaker identification is concerned with the selection of one speaker within a set of enrolled members and in this work the experiments were performed using a textindependent cohort Gaussian mixture model (GMM) speaker identification system. In order to perform the tests, TIMIT speech database is used and its corresponding version corrupted by a noisy telephone channel, i.e., NTIMIT. The vocal tract is represented by Mel-cepstral frequency coefficients with filter banks or, alternatively, by linear prediction cepstral coefficients. Additionally, the cepstral mean subtraction technique is applied when the NTIMIT database is used to minimize the channel distortion intrinsic to it. The utterance component for which the Mel-frequency cepstral coefficients is obtained using a voice activity detector (VAD). However, the VADs are generally sensitive to the signal-to-noise ratio of the utterance, making it necessary to adapt them to the system operating conditions. A signal-to-noise ratio estimator is included in the proposal VAD, which is based on Minima Controlled Recursive Average (MCRA), in order to be able to handle both clean and noisy speech. It is observed that in high signal-to-noise ratio utterances, such as those from the TIMIT database, the more appropriate extraction method for the Mel-frequency cepstral coefficients was the baseline one consisting of filter banks, while for noisy speech the technique of cepstral mean subtraction coupled with the extraction of Mel-frequency cepstral coefficients from linear prediction cepstral coefficients provided the best results.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

monografia.pdf (1.29 Mbytes)

Data de Publicação

2009-07-16

Trabalhos decorrentes

AVISO: O material descrito abaixo refere-se a trabalhos decorrentes desta tese ou dissertação. O conteúdo desses trabalhos é de inteira responsabilidade do autor da tese ou dissertação.

CARDOSO, D. P., and ARJONA RAMÍREZ, M. An Adaptive Speaker Identification System for Noisy Speech. In INTERNATIONAL WORKSHOP ON TELECOMMUNICATIONS, São Paulo, 2009. Proceedings - International Workshop on Telecommunicatios.Santa Rita do Sapucaí : Instituto Nacional de Telecomunicações, 2009.