Il riconoscimento dei file audio, Automatic Speech Recognition

Una delle frontiere dell’informatica moderna è quello di poter permettere a chiunque di cercare una qualsiasi parola, una frase o un intero testo all’interno di un file audio. L’approccio fondamentale che viene utilizzato per l’indicizzazione ed il recupero del parlato è basato sulla conversione dei segnali audio vocali in testo su cui successivamente applicare tecniche di IR. Potrebbero risultare utili anche altre informazioni come l’identità dello speaker, il suo accento ed altre caratteristiche che vengono definite secondarie.

Il problema del riconoscimento del parlato viene definito come Automatic Speech Recognition, abbreviato ASR, e viene ricondotto ad un problema di pattern matching.

Al sistema di riconoscimento vengono fornite le componenti base del parlato come i fonemi, le parole e le frasi. Ognuno di questi elementi viene rappresentato attraverso l’utilizzo dei vettori di feature durante la fase di Training. Queste vettori conterranno informazioni come il bandwidth, il ZCR, il Silence ratio, lo Spectral centroid, ecc. I vari vettori creati vengono confrontati con i vettori di riferimento di ciascuna classe di pezzi audio attraverso la distanza euclidea tra i vettori di feature.

Il riconoscimento dei file audio, Automatic Speech Recognition

Uno dei grandi ostacoli del riconoscimento del parlato è che fonemi prodotti da persone diverse hanno grandi differenze in durata, ampiezza, la presenza di rumore ambientale o di sottofondo, ecc. Inoltre la separazione del brano in fonemi è critica (ogni fonema ha una durata diversa) e variano a seconda del contesto (ad esempio una vocale tra due consonanti).

A causa di questa grande imprevedibilità il problema del riconoscimento del parlato viene definito statistico che può essere migliorato fornendo una conoscenza del linguaggio utilizzato (come il dizionario dei termini e regole grammaticali che determinano le sequenze di parole ammesse)

Photo Credit Harish Krishnamurthy.strong

Pubblicato in Audio, Informatica, Sistemi Informativi Taggato con: , , , , , , , , , , , ,

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

*