Il riconoscimento dei file audio, Automatic Speech Recognition

Una delle frontiere dell’informatica moderna è quello di poter permettere a chiunque di cercare una qualsiasi parola, una frase o un intero testo all’interno di un file audio. L’approccio fondamentale che viene utilizzato per l’indicizzazione ed il recupero del parlato è basato sulla conversione dei segnali audio vocali in testo su cui successivamente applicare tecniche di IR. Potrebbero risultare utili anche altre informazioni come l’identità dello speaker, il suo accento ed altre caratteristiche che vengono definite secondarie.

Il problema del riconoscimento del parlato viene definito come Automatic Speech Recognition, abbreviato ASR, e viene ricondotto ad un problema di pattern matching.

Al sistema di riconoscimento vengono fornite le componenti base del parlato come i fonemi, le parole e le frasi. Ognuno di questi elementi viene rappresentato attraverso l’utilizzo dei vettori di feature durante la fase di Training. Queste vettori conterranno informazioni come il bandwidth, il ZCR, il Silence ratio, lo Spectral centroid, ecc. I vari vettori creati vengono confrontati con i vettori di riferimento di ciascuna classe di pezzi audio attraverso la distanza euclidea tra i vettori di feature.

Il riconoscimento dei file audio, Automatic Speech Recognition

Uno dei grandi ostacoli del riconoscimento del parlato è che fonemi prodotti da persone diverse hanno grandi differenze in durata, ampiezza, la presenza di rumore ambientale o di sottofondo, ecc. Inoltre la separazione del brano in fonemi è critica (ogni fonema ha una durata diversa) e variano a seconda del contesto (ad esempio una vocale tra due consonanti).

A causa di questa grande imprevedibilità il problema del riconoscimento del parlato viene definito statistico che può essere migliorato fornendo una conoscenza del linguaggio utilizzato (come il dizionario dei termini e regole grammaticali che determinano le sequenze di parole ammesse)

Advertisement

Photo Credit Harish Krishnamurthy.

Articoli che potrebbero interessarti:

  1. Il riconoscimento dei segnali audio Per qualsiasi persona è molto semplice distinguere tra differenti tipi di audio (voce, musica, rumori, ecc.), differenti velocità di esecuzione...
  2. Classificazione dei segnali audio Essere in grado di catalogare i vari file audio è un passo molto utile per la ricerca di informazioni all’interno...
  3. Il Time Domain per la rappresentazione di un segnale audio Se si vuole rappresentare un segnale audio attraverso un grafico il primo tipo di rappresentazione che sicuramente verrebbe in mente...
  4. I segnali audio rappresentati nel dominio delle Frequenze Dalla rappresentazione di un segnale audio nel Time Domain, deriva un altro tipo di rappresentazione, quella nel Dominio delle Frequenze....
  5. Tecniche di identificazione dello Speaker Uno dei grandi problemi per il riconoscimento vocale sono le differenti caratteristiche che variano da persona a persona come il...

RSS feed dei commenti a questo articolo. TrackBack URI

Leave a Reply