Distortion-class modeling for robust speech recognition under GSM RPE-LTP coding (original) (raw)

Sviluppo di un sistema di riconoscimento del parlatore per l'esecuzione di comandi vocali

2021

Il progetto verte sullo sviluppo di un sistema di riconoscimento del parlatore per l'esecuzione di comandi vocali. Il sistema è stato implementato in Python e si occupa del riconoscimento sia del linguaggio parlato che del parlatore. Per fare questo è stata utilizzata una rete neurale profonda (DNN) e un classificatore Multi Layer Perceptron. I risultati sono ottimi, il sistema oltre che a discriminare sempre un utente dall'altro, dispone di un ulteriore modulo che si occupa della traduzione in testo del comando impartito e un preventivo salvataggio su file di testo, per una possibile condivisione futura. Questo permette diverse implementazioni sfruttando la rete aziendale, caricando tutto il sistema su Cloud, interfacciando così l'utente a tutte quelle tecnologie dell'internet presenti negli Smart Office moderni. In secondo luogo è stato sviluppato anche un sistema di Sentiment Analysis utilizzando la voce, che completa il lavoro svolto e potrebbe monitorare l'umore dei dipendenti in determinate aree.

(2010) Stabilità dei parametri nello Speaker Recognition

La tendenza della ricerca attuale in ambito di Speaker Recognition (SR) è volta a individuare informazioni quanto più oggettive possibili presenti nella voce umana analizzando la produzione di un parlatore senza occuparsi della sfera semantica, della produzione linguistica o della struttura sintattica e morfologica. In aggiunta i metodi noti come semiautomatici e parametrici si occupano di dati considerati statici. Tale scelta in primo luogo è giustificata dalla relativa facilità della misura e dal trattamento di un ristretto numero di parametri (cfr. e in secondo luogo perché la misura di dati statici è la naturale evoluzione di una tradizionale analisi linguistica (cfr. .

(2009) Stabilità dei parametri nello Speaker Recognition

SOMMARIO Un sistema di riconoscimento del parlatore ha lo scopo primario di identificare una persona attraverso la sua voce. Deve, innanzi tutto, ricercare quelle informazioni quanto più oggettive possibili presenti nella voce umana ed analizzare la produzione di un parlatore senza interessarsi della sfera semantica, della produzione linguistica 1 , o della costruzione sintattica e morfologica. La voce è molto più di una semplice sequenza di suoni, è intrinsecamente complessa e gran parte della sua complessità è legata ai rapporti tra le singole variabili che operano al suo interno come ad esempio il senso, il significato, le intenzioni, le emozioni, lo stato di salute, lo stato sociale, il livello di autostima, il livello di scolarizzazione ecc. Si veda, a tal proposito, quanto riportato in J. Laver, Principles of Phonetics (1994:2) <<The voice is the very emblem of the speaker, indelibly woven into the fabric of speech. In this sense, each of our utterances of spoken language carries not only its own message, but through accent, tone of voice and habitual voice quality it is at the same time an audible declaration of our membership of particular social and regional groups, of our individual physical and psychological identity, and of our momentary mood.>>. Tutto ciò, ovviamente, assume una maggiore importanza dal punto di vista forense (almeno potenzialmente), ma è, allo stesso tempo, molto difficile da analizzare e stimare. Le variazioni del parlato spontaneo, dipendono essenzialmente da un livello Paradigmatico, responsabile della sintassi, della morfologia, della semantica, della costituzione della frase e delle parole, della programmazione dell'intonazione, degli accenti primari e secondari, dell'isocronia e quindi dell'uso del tempo, e da un livello Sintagmatico, responsabile delle variabili diafasiche, della velocità di eloquio, delle regole fonologiche, delle variabili diatopiche, della centralizzazione (delle vocali toniche e delle vocali atone), della cancellazione, della riduzione, della neutralizzazione, della declinazione, delle variabili diastratiche, ecc. Una comparazione di voci è un'analisi estremamente complessa. Nella maggior parte dei casi il modo corretto per valutare i campioni di parlato e di conseguenza valutare il peso delle variabili fonetiche(-forensi) è quello di stimare la probabilità e osservare la variabilità interparlatore e intraparlatore. Questo metodo è intrinsecamente probabilistico e non può condurre mai ad una assoluta identificazione o esclusione del sospetto. Acusticamente esistono molti parametri che possono essere utilizzati per comparare due voci e la loro scelta è determinata da una approfondita analisi linguistica. Ovviamente, non esistono parametri ideali ma solo alcune caratteristiche da soddisfare: 1 Questo soprattutto perché oggi sempre più l'esperto si trova a dover trattare segnali sonori intercettati di breve durata. Ovviamente, qualunque analisi linguistica che tende al riconoscimento del parlatore fallisce in partenza.

Sviluppo di un servizio di sintesi vocale per Smart Home in ambiente OSGi

I rapporti tecnici dell'ICAR-CNR sono pubblicati dall'Istituto di Calcolo e Reti ad Alte Prestazioni del Consiglio Nazionale delle Ricerche. Tali rapporti, approntati sotto l'esclusiva responsabilità scientifica degli autori, descrivono attività di ricerca del personale e dei collaboratori dell'ICAR, in alcuni casi in un formato preliminare prima della pubblicazione definitiva in altra sede.