Tecniche di identificazione dello Speaker

Uno dei grandi problemi per il riconoscimento vocale sono le differenti caratteristiche che variano da persona a persona come il tono di voce, l’accento, la velocità con cui si emettono determinati fonemi, ecc.
E’ di fondamentale importanza saper distiguere queste caratteristiche in modo da ottenere una migliore elaborazione dei suoni che possono essere usati nei più disparati campi, come nelle applicazioni telefoniche, , per sistemi di dettatura (in inglese dictation system) o per i sistemi di controllo del sistema per i moderni telefoni cellulari tramite comandi vocali.

Il problema dello Speech Recognition è quello di estrarre informazioni su chi sta parlando, ed in particolare:

  1. Identificazione del numero di speaker che stanno parlando;
  2. Identificazione del sesso o dell’età dello speaker;
  3. Identificazione dello stato emotivo o attitudinale (allegro, triste, arrabbiato, ecc.)
  4. Riconoscimento della persona che sta parlando (Voice Recognition)

Tecniche di identificazione dello Speaker

A differenza dell’ASR, l’obiettivo non è più il parlato, ma è la persona che parla cercando di eliminare le caratteristiche particolari del parlato di ogni speaker. Un approccio apposto allo Speech Recognition cerca di enfatizzare le differenze di pronuncia, linguistiche e temporali tra i vari speaker.

Photo Credit Keith Allison.strong

Pubblicato in Audio, Informatica, Sistemi Informativi, Telefonia Taggato con: , , , ,

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

*