Indicizzazione e ricerca dei video basata sugli SHOT

Le tecniche di sgmentazione dividono in shot i video

Quando si parla di file video, per Shot si intende un gruppo di frame contigui che fanno parte della stessa scena, non sono interrotti da uno “stacco” della telecamera oppure quando i frame fanno riferimento allo stesso evento.

Sgmentazione

In informatica, l’indicizzazione e la ricerca sui file video basata sugli shot è molto importante… basta pensare a Youtube, un utente generico come può cercare un video? Inserendo delle parole (query di ricerca) che verranno cercate nel titolo, nei tag e nella descrizione dei singoli video… questo tipo di ricerca è davvero inefficiente, se un utente ha inserito un titolo generico ad un video e non ha inserito nessuna descrizione o tag, il video in questione difficilmente verrà trovato…

L’indicizzazione e la ricerca basata sugli shot individua le vari parti di un video che possono essere considerata separate, ad esempio le notizie di un telegiornale oppure le scene di un film. Con questa tecnica è possibile scorrere i video per ricercare determinate sequenze, sono quindi necessarie tecniche di segmentazione dei video per l’identificazione automatica degli shot. Esistono due tipi di segmentazione per i video:

  1. Segmentazione automatica
  2. Segmentazione a due soglie

La tecniche della segmentazione automatica

La tecnica di segmentazione automatica degli shot di un video basa il proprio funzionamento sul principio che spesso i frame consecutivi che hanno un elevato cambiamento quantitativo del loro contenuto molto probabilmente appartengono a shot diversi. Di conseguenza, per individuare il cambio di uno shot bisogna definire una certa quantità superata la quale il sistema può segmentare in automatico il video in due shot diversi.
Per poter misurare la differenza tra due frame consecutivi ci sono due metodi:

  • Metodo 1: si calcola il numero di differenze tra pixel e pixel tra due frame consecutivi. Questo metodo non risulta molto efficiente per video in cui ci sono degli oggetti in movimento;
  • Metodo 2: si calcola la differenza tra gli istogrammi di colore dei due frame consecutivi. Con questo metodo il movimento degli oggetti all’interno del video non influenza molto la segmentazione poiché gli istogrammi di colore di due frame consecutivi con oggetti in movimento sono molto simili.
  • In un’edizione del Tg, se vi è un brusco cambio durante la messa in onda di un servizio, il sistema rileva un grande cambiamento di colore dei pixel e dividerà il video in due shot.

    Qualsiasi metodo si decide di adottare per la segmentazione in automatico dei video, quando si avranno delle grosse variazioni tra due frame consecutivi allora si procederà a segmentare il video in due shot… ma la segmentazione automatica hai dei limiti: se tra shot diversi si inserire un qualsiasi effetto, ad esempio dissolvenza (vedi l’immagine sottostante) il sistema non riuscirà ad individuare bruschi cambiamenti né di pixel per pixel né per istogrammi di colore.

    La segmentazione a due soglie

    Un metodo alternativo per segmentare in automatico gli shot in un video è quello di utilizzare il metodo delle due soglie: una più alta, detta Tb, utilizzata per determinare i cambi di camera e una più bassa, detta Ts, per determinare i frame nei quali avviene una transizione graduale. Con questo metodo quando verrà confrontato un frame con il successivo, se la differenza è maggiore di Tb si introduce un cambio di shot, se la differenza è minore di Tb ma superiore a Ts il frame è dichiarato come un potenziale frame di transizione. La distanza tra i frame viene sommata fino a quando si hanno potenziali frame di transizione consecutivi e se raggiunge la soglia Tb si genera un cambio di shot, se invece la sequenza di potenziali frame di transizione è interrotta da una differenza inferiore alla soglia Ts la somma viene azzerata.

    Un limite della segmentazione a due soglie è il panning e lo zoom. Queste operazioni effettuate con la telecamera generano dei cambiamenti che possono portare all’individuazione di falsi shot. Per ovviare a questo problema si possono introdurre tecniche di analisi del movimento (motion vectors) di blocchi di pixel tra frame successivi.

    Il panning consiste nel muoversi all’interno in un’immagine, in questo caso ci si è spostati in alto a sinistra:

    Panning immagini

    Lo zoom consiste nell’ingrandire l’immagine come in questo caso:

    Zoom immagini

    Indicizzazione basata sull’utilizzo degli shot

    Dopo aver individuato gli shot contenuti in un file video, occorre indicizzarli… ovviamente, per motivi di spazio, non è possibile conservare informazioni relative a tutti i frame contenuti nei video, bisogna trovare un metodo per individuare uno o più frame rappresentativi del video (r-frame, Representative Frame) da utilizzare per gestire in modo efficiente la fase di ricerca.

    Quanti r-frame bisogna utilizzare per rappresentare ogni shot? Ci sono tre metodi:

    1. 1 r-frame per ogni shot. Utilizzando un singolo frame per ogni shot difficilmente si riesce ad interpretare completamente il contenuto di uno shot, inoltre con questo metodo non vengono considerate le differenze tra i vari frame nello shot;
    2. N r-frame al secondo. Con questa soluzione si gestisce la lunghezza ma non il contenuto dello shot, se il contenuto è molto simile, avremmo un numero sproporzionato ed inutile di frame simili tra loro;
    3. Suddivisione in sotto-shot. Si utilizza una delle tecniche utilizzate per terminare gli shot e si genera un r-frame per ogni sotto-shot.

    Per individuare gli r-frame rappresentativi per ogni shot bisogna tener conto se il video è statico, ovvero se il contenuto del video non cambia molto ogni frame dello shot può essere scelto come r-frame; se invece nel video ci sono molti movimenti di oggetti o della camera, la scelta dell’r-frame diventa più complicata poiché la scelta dello shot influisce direttamente sulle future performance di ricerca. Esistono tre possibili metodi per scegliere gli r-frame:

    1. Si considera come r-frame il primo frame dello shot (o del sottoshot);
    2. Si calcola un frame “medio” facendo la media dei colori di tutti frame dello shot pixel per pixel;
    3. Si calcola la media di tutti gli istogrammi dei frame dello shot e si sceglie come r-frame il frame il cui istogramma è il più vicino all’istogramma medio.

    Photo Credit: Eurecom

    Pubblicato in Sistemi Informativi, Video Taggato con: , , , , , ,

    Lascia un commento

    Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

    *