Il Clustering per le ricerche per similarità

I dati vengono suddivisi in cluster da utilizzare nelle query

Il Clustering è una tecnica utilizzata per ottimizzare i tempi di ricerca nello spazio di feature (delle caratteristiche) n-dimensionale. Con il clustering i vettori delle caratteristiche simili vengono raggruppati in cluster in base a determinate misure di similarità.

Ogni cluster è rappresentato dal proprio centroide, una sorta di vettore comune tra tutti i dati contenuti in ogni cluster e il calcolo della similarità avviene tra una query ed il centroide di ogni cluster. Ogni qual volta che viene effettuata una query, il confronto dei vettori caratteristiche sarà effettuato tra la query e i vettori contenuti nel cluster con il centroide più simile alla query.

La tecnica del clustering rappresenta un tipo di struttura dati molto efficiente quando il numero di dati indicizzato è molto elevato. E’ impensabile confrontare la query di ricerca con qualsiasi dato, per cui si decide di confrontare la query solo con i centroidi dei cluster. I vettori, del cluster più simile alla query, verranno confrontati ognuno singolarmente con la query.

Il Clustering per le ricerche per similarità

Si parla di clustering a più livelli quando il numero di cluster è molto elevato e si suddividono i cluster in più livelli in modo da ridurre il numero di calcoli di similarità per le operazioni di ricerca.

Pubblicato in Sistemi Informativi Taggato con: , ,

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

*