Come funziona un motore di ricerca?

Se sei un esperto di SEO (Search Engine Optimization), indicizzazione, posizionamento e tutte queste diavolerie, questo post non fa per te. Torna a trovare il BernaBlog tra qualche giorno.

In questo articolo, infatti, illustreremo i concetti base sul funzionamento di un motore di ricerca. Per farlo partiamo da un video in cui Matt Cutts spiega il funzionamento di Google. Inutile dire che la stessa spiegazione vale, pur con minime differenze, anche per gli altri motori di ricerca.

Indicizzazione

Ogni volta che utilizziamo un motore, non stiamo cercando realmente all’interno di tutto il web. Stiamo invece cercando all’interno del cosiddetto indice, quel sottoinsieme del web che il motore è stato in grado di scoprire e salvare sui propri server.

Questa procedura, nota con il termine tecnico di crawling o indicizzazione, prevede che un apposito software (spider) parta da un insieme ridotto di pagine e, muovendosi seguendo i link in esse contenuti, esattamente come farebbe un utente “umano”, passa di sito in sito. Ogni volta che lo spider atterra su una pagina ne fa una copia e la salva sui server del motore.

In parole povere, i motori di ricerca memorizzano sui propri server una copia del web. E’ un fatto che normalmente stupisce i neofiti; effettivamente i motori si caratterizzano per la disponibilità di un hardware eccezionalmente capiente, in grado di memorizzare miliardi di pagine web.

Questa tecnica di crawling è stata spesso criticata da alcuni esperti del settore che la ritengono non “scalabile”, cioè incapace di mantenere la propria efficienza man mano che il web diventerà sempre più grande. Questo tema è tornato più che mai alla ribalta con l’esplosione dello User Generated Content che ha portato ad un netto incremento delle pagine web nel giro di pochi anni, abbattendo le barriere tecnologiche alla messa online di contenuti di qualsiasi genere (testo, fotografie, video, musica ecc.).

E’ noto come i principali motori stiano lavorando da anni su tecniche alterative per costruire il proprio indice, ma ad oggi tutti adottano ancora il sistema descritto sopra.

Come è facile intuire, il processo di crawling è iterativo: lo spider visita lo stesso sito ad intervalli regolari salvandone di volta in volta l’ultima versione. La sfida dei motori si è concentrata negli ultimi anni proprio nell’incrementare il più possibile la velocità del processo di indicizzazione, riducendo così il lasso di tempo che intercorre tra due passaggi dello spider su una stessa pagina. L’obiettivo è quello di ottenere un indice che sia il più possibile vicino alle pagine “live”, cioè online in quel momento.

Ricerca

Il processo di indicizzazione consente al motore di avere a disposizione un database di pagine all’interno del quale effettuare le ricerche proposte dagli utenti.

Ogni volta che un utente effettua una query, il motore estrae dal proprio database tutte le pagine che contengono le parole indicate dall’utente. Si ottengono così i risultati che dovranno essere mostrati all’utente.

A questo punto il problema è: in che ordine presentare i risultati estratti? Questo è il punto in cui i gli algoritmi dei vari search engine si differenziano maggiormente, restituendo spesso risultati diversi tra di loro. In generale i motori ricorrono ai seguenti parametri:

  • Frequenza delle parole ricercate all’interno della pagina
  • Presenza delle parole nell’URL, nel meta-tag title, nel titolo della pagina e nelle prime righe del testo
  • Vicinanza tra di loro delle parole chiave nel testo della pagina
  • Presenza nel testo di sinonimi delle parole ricercate
  • Qualità del sito
  • PageRank (nel caso di Google): misura dell’importanza del sito ottenuta analizzando i link entrata verso di esso e in uscita da esso.

Questa lista è inevitabilmente incompleta se pensiamo che Google ricorre a più di 200 fattori per assegnare un “voto” ad ogni pagina presente nel proprio database.

A questo punto il gioco è fatto: il motore produce la pagina con i risultati (la cosiddetta SERP = Search Engine Result Page) semplicemente ordinando i risultati estratti in precedenza in ordine inverso in base al ranking assegnato, dal migliore (voto più alto) al peggiore (voto più basso).

Ora che hai compreso come avviene l’indicizzazione del web ed il lavoro che si cela dietro ad una ricerca, risulta molto semplice definire la SEO (Search Engine Optimization): si tratta di quella “scienza” che si pone l’obiettivo di ottenere il miglior posizionamento possibile sui motori per alcune ricerche rilevanti, favorendo l’indicizzazione delle pagine che compongono un sito ed agendo su tutti i fattori che ne influenzano il ranking.

Articoli correlati


2 Commenti

  1. Una spiegazione davvero chiara e completa: complimenti, unire sintesi e chiarezza non è mai facile o banale! Ben fatto!

  2. Grazie, Alessandro, per i complimenti.

Commenta