Wellington da Silva | Universidade Estadual de Campinas (original) (raw)
Uploads
Papers by Wellington da Silva
Os fenômenos emocionais podem ser descritos de acordo com várias abordagens psicológicas, sendo a... more Os fenômenos emocionais podem ser descritos de acordo com várias abordagens psicológicas, sendo a discreta (básica) e a dimensional as mais adotadas. Este estudo teve como objetivo investigar a relação entre a percepção de algumas emoções básicas e dimensões emocionais na fala, bem como determinar quais pistas acústicas estão relacionadas com sua percepção. Conduziram-se dois experimentos de percepção com enunciados selecionados de uma língua estrangeira (sueco) da qual os ouvintes não possuíam nenhum conhecimento. No primeiro, sujeitos brasileiros julgaram em escalas de cinco pontos a expressividade de quatro emoções básicas: alegria, raiva, tristeza e calma. No segundo, um grupo distinto de sujeitos brasileiros avaliou a expressividade de cinco dimensões emocionais: ativação, justiça, valência, motivação e envolvimento. A percepção das emoções básicas e das dimensões emocionais foi então comparada por meio do coeficiente de correlação de Spearman. As cinco dimensões emocionais correlacionaram-se significativamente em algum grau com as emoções básicas e essas correlações foram, no geral, consistentes com a literatura e com as hipóteses que nortearam este estudo. Realizou-se também uma análise acústica, na qual doze parâmetros acústicos foram computados automaticamente para os enunciados avaliados pelos ouvintes. Os parâmetros que melhor se correlacionaram com os julgamentos dos ouvintes foram: frequência fundamental (mediana, semiamplitude entre quantis, quantil 99,5%), inclinação espectral (média e desvio padrão) e inclinação do LTAS. Concluiu-se que é possível descrever a percepção das emoções básicas na fala como uma combinação de dimensões emocionais e que as dimensões emocionais podem ser melhores para descrever a expressão de emoções na fala.
This study was conducted to investigate whether the listeners' culture and mother language influe... more This study was conducted to investigate whether the listeners' culture and mother language influence the perception of emotions through speech and which acoustic cues listeners use in this process. Swedish and Brazilian listeners were presented with authentic emotional speech samples of Brazilian Portuguese and Swedish. They judged on 5-point Likert scales the expression of basic emotions as described by eight adjectives in the utterances in Brazilian Portuguese and the expression of five emotional dimensions in the utterances in Swedish. The PCA technique revealed that two components explain more than 94% of the variance of the judges' responses in both experiments. These components were predicted through multiple linear regressions from twelve acoustic parameters automatically computed from the utterances. The results point to a similar perception of the emotions between both cultures.
This paper proposes a new methodology for automatically comparing the speech rhythm structure of ... more This paper proposes a new methodology for automatically comparing the speech rhythm structure of two utterances. Eleven parameters were automatically extracted from 44 pairs of audiofiles yielding 11-size difference vectors. The parameters include speech rate, duration-related stress group rate, prominence and prosodic boundary strength, f0 peak rate, as well as the coupling strength between underlying syllable and stress group oscillators. The 11-parameter difference vectors were used to infer the perceptual differences identified by a group of 10 listeners who judged the same 44 pairs of audiofiles . The results indicate that duration-related prominence or prosodic boundary rate and speech rate, taken together, predict up to 71 % of the response variance. To a minor extent, prominence/boundary strength mean and non-prominent VV unit rate predict up to 60 % of the response variance when combined with prominence or prosodic boundary rate.
No estudo apresentado, foi investigada a relação entre as medidas de produção do ritmo do portugu... more No estudo apresentado, foi investigada a relação entre as medidas de produção do ritmo do português brasileiro apontadas por três métodos de caracterização do ritmo da fala e sua percepção por uma bateria de ouvintes, através de um teste de discriminação com fala deslexicalizada. O método avaliado na produção foi uma técnica semiautomática fundamentada na teoria de osciladores acoplados de Barbosa (2006). Os outros métodos utilizados foram o índice de variabilidade pareada e o comprimento resultante em estatística circular. O método de osciladores acoplados foi capaz de captar diferenças no ritmo de fala entre os locutores, entre os dois estilos (leitura e narração) e também ao longo das gravações. Entretanto, pesquisas adicionais são necessárias para melhor se investigar a relação entre produção e percepção do ritmo da fala.
This monograph presents a study about the rhythm of Brazilian Portuguese in which a semi-automati... more This monograph presents a study about the rhythm of Brazilian Portuguese in which a semi-automatic technique based on the coupled-oscillators model proposed by Barbosa (2006) was applied. The corpus used consisted of six recordings of two women and one man from the São Paulo State who aged between 30 and 45 years. Each speaker read a 1,500-word text on the origin of the pastries pasteis de Belém and, right after the reading, told what the text was about. By applying analysis of covariance (ANCOVA) it was possible to compare the regression lines and therefore analyse the speakers’ rhythm throughout the recordings. The level of prominence of each stress group combined with the number of syllable-sized units within each one explained about 70 % of the variance of the stress group duration. A discrimination test with delexicalised speech was run in order to investigate whether the listeners are capable of perceiving the differences in the speech rhythm signaled by the three techniques of rhythm characterization used (the Pairwise Variability Index, a technique based on circular statistics and the coupled-oscillators model). The listeners’ responses were then correlated with the values obtained with these techniques. The results indicate that the listeners use other acoustic clues for discriminating between the rhythms of the utterances, since it was not obtained high correlations, that is, the three techniques used could not explain the listeners’ responses.
Os fenômenos emocionais podem ser descritos de acordo com várias abordagens psicológicas, sendo a... more Os fenômenos emocionais podem ser descritos de acordo com várias abordagens psicológicas, sendo a discreta (básica) e a dimensional as mais adotadas. Este estudo teve como objetivo investigar a relação entre a percepção de algumas emoções básicas e dimensões emocionais na fala, bem como determinar quais pistas acústicas estão relacionadas com sua percepção. Conduziram-se dois experimentos de percepção com enunciados selecionados de uma língua estrangeira (sueco) da qual os ouvintes não possuíam nenhum conhecimento. No primeiro, sujeitos brasileiros julgaram em escalas de cinco pontos a expressividade de quatro emoções básicas: alegria, raiva, tristeza e calma. No segundo, um grupo distinto de sujeitos brasileiros avaliou a expressividade de cinco dimensões emocionais: ativação, justiça, valência, motivação e envolvimento. A percepção das emoções básicas e das dimensões emocionais foi então comparada por meio do coeficiente de correlação de Spearman. As cinco dimensões emocionais correlacionaram-se significativamente em algum grau com as emoções básicas e essas correlações foram, no geral, consistentes com a literatura e com as hipóteses que nortearam este estudo. Realizou-se também uma análise acústica, na qual doze parâmetros acústicos foram computados automaticamente para os enunciados avaliados pelos ouvintes. Os parâmetros que melhor se correlacionaram com os julgamentos dos ouvintes foram: frequência fundamental (mediana, semiamplitude entre quantis, quantil 99,5%), inclinação espectral (média e desvio padrão) e inclinação do LTAS. Concluiu-se que é possível descrever a percepção das emoções básicas na fala como uma combinação de dimensões emocionais e que as dimensões emocionais podem ser melhores para descrever a expressão de emoções na fala.
This study was conducted to investigate whether the listeners' culture and mother language influe... more This study was conducted to investigate whether the listeners' culture and mother language influence the perception of emotions through speech and which acoustic cues listeners use in this process. Swedish and Brazilian listeners were presented with authentic emotional speech samples of Brazilian Portuguese and Swedish. They judged on 5-point Likert scales the expression of basic emotions as described by eight adjectives in the utterances in Brazilian Portuguese and the expression of five emotional dimensions in the utterances in Swedish. The PCA technique revealed that two components explain more than 94% of the variance of the judges' responses in both experiments. These components were predicted through multiple linear regressions from twelve acoustic parameters automatically computed from the utterances. The results point to a similar perception of the emotions between both cultures.
This paper proposes a new methodology for automatically comparing the speech rhythm structure of ... more This paper proposes a new methodology for automatically comparing the speech rhythm structure of two utterances. Eleven parameters were automatically extracted from 44 pairs of audiofiles yielding 11-size difference vectors. The parameters include speech rate, duration-related stress group rate, prominence and prosodic boundary strength, f0 peak rate, as well as the coupling strength between underlying syllable and stress group oscillators. The 11-parameter difference vectors were used to infer the perceptual differences identified by a group of 10 listeners who judged the same 44 pairs of audiofiles . The results indicate that duration-related prominence or prosodic boundary rate and speech rate, taken together, predict up to 71 % of the response variance. To a minor extent, prominence/boundary strength mean and non-prominent VV unit rate predict up to 60 % of the response variance when combined with prominence or prosodic boundary rate.
No estudo apresentado, foi investigada a relação entre as medidas de produção do ritmo do portugu... more No estudo apresentado, foi investigada a relação entre as medidas de produção do ritmo do português brasileiro apontadas por três métodos de caracterização do ritmo da fala e sua percepção por uma bateria de ouvintes, através de um teste de discriminação com fala deslexicalizada. O método avaliado na produção foi uma técnica semiautomática fundamentada na teoria de osciladores acoplados de Barbosa (2006). Os outros métodos utilizados foram o índice de variabilidade pareada e o comprimento resultante em estatística circular. O método de osciladores acoplados foi capaz de captar diferenças no ritmo de fala entre os locutores, entre os dois estilos (leitura e narração) e também ao longo das gravações. Entretanto, pesquisas adicionais são necessárias para melhor se investigar a relação entre produção e percepção do ritmo da fala.
This monograph presents a study about the rhythm of Brazilian Portuguese in which a semi-automati... more This monograph presents a study about the rhythm of Brazilian Portuguese in which a semi-automatic technique based on the coupled-oscillators model proposed by Barbosa (2006) was applied. The corpus used consisted of six recordings of two women and one man from the São Paulo State who aged between 30 and 45 years. Each speaker read a 1,500-word text on the origin of the pastries pasteis de Belém and, right after the reading, told what the text was about. By applying analysis of covariance (ANCOVA) it was possible to compare the regression lines and therefore analyse the speakers’ rhythm throughout the recordings. The level of prominence of each stress group combined with the number of syllable-sized units within each one explained about 70 % of the variance of the stress group duration. A discrimination test with delexicalised speech was run in order to investigate whether the listeners are capable of perceiving the differences in the speech rhythm signaled by the three techniques of rhythm characterization used (the Pairwise Variability Index, a technique based on circular statistics and the coupled-oscillators model). The listeners’ responses were then correlated with the values obtained with these techniques. The results indicate that the listeners use other acoustic clues for discriminating between the rhythms of the utterances, since it was not obtained high correlations, that is, the three techniques used could not explain the listeners’ responses.