Il riconoscimento dei file audio, Automatic Speech Recognition
Il problema del riconoscimento del parlato viene definito come Automatic Speech Recognition, abbreviato ASR, e viene ricondotto ad un problema di pattern matching.
Al sistema di riconoscimento vengono fornite le componenti base del parlato come i fonemi, le parole e le frasi. Ognuno di questi elementi viene rappresentato attraverso l’utilizzo dei vettori di feature durante la fase di Training. Queste vettori conterranno informazioni come il bandwidth, il ZCR, il Silence ratio, lo Spectral centroid, ecc. I vari vettori creati vengono confrontati con i vettori di riferimento di ciascuna classe di pezzi audio attraverso la distanza euclidea tra i vettori di feature.

Uno dei grandi ostacoli del riconoscimento del parlato è che fonemi prodotti da persone diverse hanno grandi differenze in durata, ampiezza, la presenza di rumore ambientale o di sottofondo, ecc. Inoltre la separazione del brano in fonemi è critica (ogni fonema ha una durata diversa) e variano a seconda del contesto (ad esempio una vocale tra due consonanti).
A causa di questa grande imprevedibilità il problema del riconoscimento del parlato viene definito statistico che può essere migliorato fornendo una conoscenza del linguaggio utilizzato (come il dizionario dei termini e regole grammaticali che determinano le sequenze di parole ammesse)
Photo Credit Harish Krishnamurthy.
Articoli che potrebbero interessarti:
- Il riconoscimento dei segnali audio Per qualsiasi persona è molto semplice distinguere tra differenti tipi di audio (voce, musica, rumori, ecc.), differenti velocità di esecuzione...
- Classificazione dei segnali audio Essere in grado di catalogare i vari file audio è un passo molto utile per la ricerca di informazioni all’interno...
- Il Time Domain per la rappresentazione di un segnale audio Se si vuole rappresentare un segnale audio attraverso un grafico il primo tipo di rappresentazione che sicuramente verrebbe in mente...
- I segnali audio rappresentati nel dominio delle Frequenze Dalla rappresentazione di un segnale audio nel Time Domain, deriva un altro tipo di rappresentazione, quella nel Dominio delle Frequenze....
- Tecniche di identificazione dello Speaker Uno dei grandi problemi per il riconoscimento vocale sono le differenti caratteristiche che variano da persona a persona come il...
RSS feed dei commenti a questo articolo. TrackBack URI

