Processo base del document retrieval

Con l’acronimo IR,Information Retrival, si intende l’insieme delle tecniche di recupero delle informazioni. Si tratta di particolari tecniche in cui il testo è impiegato come strumento manuale di annotazione sfruttabile da un IR.
L’idea base di questo modello è la rappresentazione delle query e dei documenti, in questo modo si affina sia il processo di recupero delle informazioni che il processo per le gestione delle richieste da parte degli utenti. Queste rappresentazioni vengono confrontate tra di loro per offrire il miglior risultato possibile che il sistema può restituire. La sua non staticità rappresenta un grande passo in avanti, alla fine di ogni ricerca qualsiasi utente puo’ lasciare una propria valutazione sui risultati ottenuti in modo da migliorare le future richieste.

Processo base del document retrieval

Il processo di recupero delle informazioni all’interno di un file di testo seguente un certo modello che può essere suddiviso in 2 fasi:

  1. Memorizzazione. I testi vengono elaborati offline per ottenere la rappresentazione del documento che verrà salvata all’interno del sistema. In questo modo quando verrà effettuata una query si avrà già disponibile la rappresentazione del documento e non si dovrà calcolarla sul momento;
  2. Recupero. Quando un utente effettua una query questa viene processata in modo da fornire una sua rappresentazione senza gli elementi superficiali che contiene (ad es. articoli, le preposizioni, ecc.)

Il passo successivo per il recupero delle informazioni effettua una comparazione di similarità tra la rappresentazione della query con quella dei documenti memorizzati nel sistema. Si effettua questo tipo di confronto perché si cerca il documento il più simile alle informazioni cercate, se così non fosse nel caso in cui non esiste esattamente quel documento non verrebbe restituito nessun risultato.

Infine in base alla confronto effettuato si recuperano i documenti che risultano essere più simili a ciò che l’utente ha cercato. Alcuni IR consentono di rilasciare un feedback sui risultati ottenuti in modo da affinare i successivi risultati.

Esistono differenti tipi di modelli che vengono usati:

  1. Match esatto (modello booleano);
  2. Spazio Vettoriale;
  3. Modello probabilistico;
  4. Modello su Cluster (raggruppamento).

/li

Pubblicato in Informatica, Sistemi Informativi Taggato con: , , , , , , ,

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

*