Dados do Trabalhos de Conclusão

INSTITUTO MILITAR DE ENGENHARIA
ENGENHARIA DE DEFESA (31007015011P8)
REALCE DE SINAIS DE VOZ BASEADO NA DECOMPOSIÇÃO EMPÍRICA DE MODOS EM PRESENÇA DE DISTORÇÕES ACÚSTICAS NÃO-ESTACIONÁRIAS
LEONARDO AUGUSTO ZAO
TESE
18/12/2013

Nesta Tese, são estudadas soluções para reduzir o efeito de distorções e variações aústias em sinais de voz. Para tratar as distorções causadas por ruídos acústicos ambientais, é introduzida a técnica de realce de sinais de voz EMDH. Esta proposta adotada decomposição empírica de modos e o expoente de Hurst para melhorar a qualidade e a inteligibilidade de sinais de voz corrompidos por ruídos não-estacionários. Com relação às variações acústicas, a finalidade é identificar o estado emocional do locutor a partir do sinal de voz. Para isto, são apresentadas duas soluções para melhor classificar as emoções: o vetor de atributos pH e uma máscara acústica binária. Para avaliação da técnica a proposta de realce, são utilizados ruídos coletados de diversas fontes acústicas e com diferentes índices de não-estacionariedade. A técnica EMDH aprimorou os resultados de quatro medidas objetivas, selecionadas para avaliar a qualidade e a inteligibilidade dos sinais de voz. Cinco técnicas de realce existentes na literatura são adotadas como referência. A proposta EMDH alcançou os melhores resultados para a maioria dos experimentos realizados, principalmente para aqueles com ruídos altamente não-estacionários. Adicionalmente, a técnica proposta aprimorou a acurácia de um sistema de identificação de locutor, adotada neste trabalho como medida complementar para a inteligibilidade dos sinais de voz. Para a classificação de estados emocionais pelo sinal de voz, o vetor pH é utilizado como atributo acústico tempo-frequência para representar as diferentes emoções. Já a máscara acústica binária é proposta para remover as componentes do sinal de voz que não estejam relacionadas com o estado emocional. A avaliação destas propostas é realizada com experimentos de identificação acústica de emoções e de condições reais de estresse com duas bases distintas. Os resultados demonstram que a adoção tanto do vetor pH quanto da máscara acústica aumenta as taxas de acertos na identificação de emoções. Além disso, os melhores resultados foram alcançados com a utilização em conjunto das duas propostas.

Engenharia de defesa, Processamento de sinais, Realce de sinais de voz, Reconhecimento acústico de emoções
The main issue of this work is to reduce the effects of noise corruption and emotional variation in speech signals. The EMDH speech te enhanement technique is proposed to reduce or suppress the signals distortion caused by acoustic noises. The proposed technique adopts the empirical mode deomposition and the Hurst exponent to improve the quality and intelligibility of the noisy speech signals. Regarding the variation in emotional speech, the main goal is to identify which emotion affects the speaker. The pH feature vector and a binary acoustic mask are proposed for the speech emotion classication. The speech enhancement evaluation experiments are conducted with speech signals currupted with acoustic noises from different sources and with different indices of nonstationarity. The EMDH technique improves the results of four objective measures, adopted to evaluate the speech signals in terms of both quality and intelligibility. For comparison, five other techniques are also considered in the experiments. The proposed technique leads to the best results for most of the noise scenarios considered in the experiments, mainly for the highly nonstationary noises. Additionally, the EMD also achieves the best accuracy in a speaker identification system. Concerning the speech emotion classification, the pH vector is adopted as a time-frequency feature to represent the variations in emotional speech. The binary acoustic mask is proposed to remove the spectro-temporal regions of the speech signals that are not related to the speaker's emotional state. The pH and the acoustic mask are evaluated in speech emotion identification experiments conducted in two different databases. The results show that both proposals are interesting to improve the emotion identication rates. Moreover, the best results are achieved with the adoption of both proposals.
-
1
107
PORTUGUES
INSTITUTO MILITAR DE ENGENHARIA
O trabalho possui divulgação autorizada

Contexto

ENGENHARIA DE DEFESA
COMUNICAÇÕES E INTELIGÊNCIA EM SISTEMAS DE DEFESA
RECONHECIMENTO AUTOMÁTICO DE LOCUTOR ROBUSTO AOS EFEITOS ADVERSOS DA CAPTURA E DA TRANSMISSÃO DE ATRIBUTOS DA VOZ (UNIVERSAL/CNPQ)

Banca Examinadora

ROSANGELA FERNANDES COELHO
DOCENTE - PERMANENTE
Sim
Nome Categoria
LUIZ WAGNER PEREIRA BISCAINHO Participante Externo
MARLEY MARIA BERNARDES REBUZZI VELLASCO Participante Externo
VITOR HELOIZ NASCIMENTO Participante Externo
PAULO FERNANDO FERREIRA ROSA Docente - PERMANENTE

Vínculo

Servidor Público
Instituição de Ensino e Pesquisa
Ensino e Pesquisa
Sim