Motori di ricerca

| | TrackBack (0)

In pochi anni, il numero delle pagine web è cresciuto enormemente, rendendo il Web stesso un ambiente in cui "si può trovare di tutto" ma non è facile trovare quello cui si è effettivamente interessati. Se l'accesso a una pagina a partire dalla conoscenza del suo URL rimane naturalmente il metodo più diretto, questa situazione spiega il grande impiego che attualmente si fa dei motori di ricerca, ossia siti web che offrono un servizio di accesso efficiente a pagine di cui si conosce non l'URL ma una parte del contenuto. Il funzionamento di questi strumenti è basato sulla logica della ricerca full-text: l'intero testo di ogni pagina candidata viene scandito, al fine di stabilire se la stringa cercata è presente; in caso positivo, la pagina viene resa facilmente accessibile attraverso un link al suo URL introdotto in modo automatico nella pagina che sintetizza i risultati della ricerca. Dato il grande numero di pagine web che dovrebbero essere prese in considerazione prima di poter giungere al risultato, questa scansione viene compiuta preventivamente, da un'applicazione che autonomamente "esplora" una per una le pagine web che riesce a raggiungere (il nome di questa applicazione, crawler, richiama l'immagine di un'entità che si muove "strisciando tra le pagine"...) e in conseguenza aggiorna una sorta di indice analitico, che contiene appunto, per ogni termine, l'elenco delle pagine web in cui esso è presente.

Un motore di ricerca è dunque un'applicazione web dinamica, con un'architettura a quattro componenti analoga a quella presentata sopra. In particolare, il backend è il sottosistema che fornisce la funzionalità di ricerca full-text, e che opera su una base di dati costituita dall'indice citato.

La generalità della logica della ricerca full-text (che ha comunque come limite il fatto di poter operare solo sul testo delle pagine e non anche sulle immagini in esse contenute) è però anche il principale punto debole dei motori di ricerca, che operano tradizionalmente in una prospettiva di tipo puramente sintattico: se la condizione di ricerca scelta è per esempio il termine "albero", un motore di ricerca potrà fornire come risultato link a pagine che trattano indifferentemente di vegetazione, di meccanica (in questo caso a proposito di alberi motore), di genealogie (in riferimento agli alberi genealogici), ....., e d'altra parte non includerà nel risultato link a pagine in cui compare il termine inglese tree o il termine francese arbre.

Proprio il notevole successo dei motori di ricerca ha giustificato un considerevole sviluppo tecnologico, finalizzato a rendere progressivamente più orientato semanticamente il comportamento del sistema di indicizzazione, dunque nella prospettiva di far sì che i motori di ricerca siano sempre più in grado di operare non solo sulla forma lessicale dei termini, ma anche sul loro significato. In questo processo si situa la ricerca che mira a quello che è stato chiamato il Web semantico, e che dovrebbe adottare sistemi di ricerca in grado di analizzare descrizioni del contenuto delle pagine realizzate mediante linguaggi XML.   

 

Categorie:

Ultimi post correlati

eG8 a Parigi: gli interventi - 26 Mag 2011
eG8 a Parigi: l'apertura - 25 Mag 2011
Lunga vita al Web! - 26 Nov 2010




Su questo post

Questa pagina contiene un solo post di Claudia pubblicato il 11.09.2008 h. 10:17.

Copyright e copyleft è il post precedente.

In arrivo il giornale elettronico è il post successivo.

Ultimi commenti

Non ci sono commenti per questo post

Archivi per mese