Search Marketing

Guida al posizionamento dei siti web nei motori di ricerca

Amico degli spider
Home
2 Apr '05
Guida
8 Nov '04
Articoli
27 Mar '05
News/Blog
La Newsletter
30 Apr '09
FAQ
12 Gen '03
Risorse
10 Ott '04

Eliminare un sito o singole pagine

A volte, per molteplici ragioni, si ha l'esigenza di impedire che i motori di ricerca indicizzino un sito web o che eliminino dai propri database pagine di un sito web precedentemente archiviato.

Questo obiettivo può a volte risultare difficoltoso, in quanto lo scopo dei maggiori motori di ricerca è quello di individuare e archiviare tutte le pagine web (o più generalmente tutti i documenti) potenzialmente raggiungibili da parte di un normale utente che naviga sul web.

A seconda che il sito web sia già stato indicizzato dai motori di ricerca o non ancora inserito nei loro archivi, per eliminare un sito dagli archivi è necessario seguire tecniche differenti.

Per i siti non ancora archiviati

Se il sito web non è stato ancora archiviato dai motori di ricerca, nella maggior parte dei casi è possibile impedirne l'indicizzazione utilizzando il file robots.txt. Si tratta di un normale file di testo contenente istruzioni in un particolare formato attraverso le quali si chiede agli spider dei motori di ricerca di non indicizzare una o più pagine del sito.

Ricorrere all'utilizzo del robots.txt è generalmente la prima soluzione che viene in mente quando si ha la necessità di impedire l'archiviazione di un sito web e nella guida al posizionamento di Motoricerca.info è presente un capitolo dedicato al file robots.txt, nel quale viene spiegata la sintassi da usare per redigerlo correttamente. Tuttavia l'uso di questo file non garantisce una piena sicurezza sulla non-indicizzazione del sito web.

I contenuti del suddetto file sono infatti solo una richiesta agli spider dei motori e non si può escludere a priori che alcuni spider decidano di ignorare tale richiesta o che abbiano problemi tecnici ad interpretare correttamente i contenuti del file. Per tale ragione, per quanto l'utilizzo del file robots.txt non va escluso, è spesso consigliato aggiungere forme di impedimento di accesso più consistenti.

Una di queste tecniche per la limitazione degli accessi può essere implementata attraverso l'attivazione di un controllo con username e password (nome utente e parola d'accesso). Praticamente tutti i server web (Apache, IIS, ecc.) implementano una forma basilare di protezione con username/password e la soluzione, nella maggioranza dei casi, è a portata di mano nei pannelli di controllo che il web host fornisce ai webmaster.

Nel caso in cui la società di hosting non fornisca un metodo semplice per proteggere una directory del sito con username e password, è sempre possibile procedere autonomamente, installando uno dei tantissimi script gratuiti che possono essere trovati sul web. Esistono infatti moltissimi script dedicati alla protezione con password di intere directory o singole pagine di un sito web (il sito HotScripts è un buon luogo dove poterne trovare diversi).

Va però specificato che lo script da scegliere deve agire "lato server" e non "lato client". Ciò significa che il server su cui risiede il sito deve essere abilitato all'esecuzione del linguaggio in cui lo script scelto è stato programmato (PHP, ASP, Python, Perl, ecc.) e che sono da escludere soluzioni di protezione funzionanti solo attraverso Javascript o l'Actionscript dei file in tecnologia Flash o qualsiasi altro linguaggio la cui esecuzione è affidata al browser dell'utente.

È evidente che l'attivazione di un controllo username/password influisce non solo sugli spider dei motori di ricerca ma anche su tutti quegli utenti che non conoscono i dati di accesso. Sorge dunque spontanea la domanda se esiste un modo per dare accesso libero agli utenti e impedire l'accesso alle pagine solo agli spider dei motori di ricerca, e la risposta e "no" o, per essere più precisi, "non se si intende trovare una soluzione semplice ed efficace al 100%".

È possibile in teoria ricorrere ad una tecnica chiamata cloaking o IP delivery. Si tratta di una tecnica che fa uso di particolari impostazioni del web server o di appositi script sviluppati in linguaggi lato server e che permette di spedire versioni diverse di una pagina web a seconda di chi la richiede. In poche parole è teoricamente possibile spedire una pagina protetta da password ad uno spider ed una pagina "normale" ad un non-spider.

Le ragioni per le quali è sconsigliato utilizzare le tecniche di cloaking sono almeno due: innanzitutto il cloaking si basa su un archivio di indirizzi IP usati dagli spider dei motori di ricerca ed una prima difficoltà consiste nel tenerlo sempre e costantemente aggiornato. In secondo luogo il cloaking è una tecnica usata anche dagli spammer dei motori di ricerca, con l'obiettivo di spedire agli spider pagine dai contenuti fortemente ottimizzati, se non addirittura piene di keyword.

Di fronte all'impegno richiesto per mantenere aggiornato l'archivio di indirizzi IP necessario al riconoscimento degli spider e al dubbio di venire scambiati per spammer da qualche motore di ricerca particolarmente meticoloso, è decisamente meglio escludere il cloaking e preferire l'accoppiata robots.txt e accesso protetto da password, che funziona egregiamente.

Per i siti già archiviati

Le tecniche sopra esposte sono applicabili anche nel caso di siti web che sono già stati archiviati in tutto o in parte dai motori di ricerca.

Nel momento in cui uno spider individua in un file robots.txt delle direttive che richiedono di non indicizzare una o più pagine o directory di un sito, il motore di ricerca a cui lo spider fa capo reagisce di conseguenza, eliminando dagli archivi le pagine precedentemente archiviate.

Medesimo discorso va fatto per quanto concerne l'utilizzo di sistemi di protezione con password, che generalmente inviano agli spider dei codici che identificano chiaramente le pagine come non accessibili. Anche in questo caso i motori di ricerca eliminano dall'archivio, e conseguentemente dai risultati delle ricerche, le pagine non più considerabili accessibili.

Tuttavia nel caso di pagine già archiviate, possono subentrare problemi la cui soluzione non è così immediata da individuare.

Il primo di questi problemi consiste nel fatto che, per accorgersi di una nuova richiesta di non indicizzazione fornita attraverso le direttive del file robots.txt o per mezzo di pagine protette da password, gli spider di un motore devono comunque prelevare il file robots.txt o tentare di accedere alle pagine che si intende far cancellare dagli archivi del motore.

In presenza di un sito web scansionato di rado dagli spider, ciò implica che prima di poter vedere le pagine eliminate dagli archivi può trascorrere un considerevole lasso di tempo. Visto che in molti casi la richiesta di eliminazione delle pagine dagli archivi di un motore nasce da errori del webmaster che richiedono di essere risolti in tempi ristretti, alcuni motori di ricerca hanno implementato delle soluzioni volte a velocizzare l'operazione di cancellazione delle pagine dai propri archivi.

È ad esempio il caso di Google che offre, oltre a sistemi tradizionali per la rimozione di pagine dall'indice, una soluzione per eliminare urgentemente un insieme di pagine o un intero sito. Si tratta di un sistema che prevede che il webmaster di un sito si faccia effettivamente riconoscere come qualcuno che ha diritto a chiedere l'eliminazione delle pagine dal database di Google. La procedura non è macchinosa ed è sufficiente seguire le istruzioni che verranno spedite al webmaster in e-mail.

Il secondo problema a cui si va incontro in caso di pagine precedentemente archiviate dai motori di ricerca nasce quando, pur avendo ottenuto la rimozione di una pagina attraverso le direttive di un file robots.txt, nei risultati delle ricerche continua ad apparire un riferimento (ovvero un link) alla pagina web cancellata.

Questo fenomeno nasce dal fatto che il motore di ricerca conosce delle pagine, in qualche parte del Web, che contengono link che puntano alla pagina eliminata. Per questa ragione, pur essendo stata fisicamente rimossa dagli archivi, le informazioni acquisite attraverso i link che puntano ad essa sono sufficienti a garantire al motore di ricerca abbastanza parametri per classificare la pagina e per includerla nei risultati della ricerca.

È evidente che il più delle volte questo comportamento costituisce un fastidio per il webmaster che ha fatto la richiesta di rimozione della pagina dagli archivi del motore, in quanto spesso la richiesta di rimozione sottintende anche una richiesta a non mostrare un link alla pagina nei risultati delle ricerche.

Per ovviare a questo problema esistono due strade: eliminare tutti i link sul Web che puntano alla pagina che non si desidera veder apparire nei risultati di ricerca oppure non impedire il prelievo della pagina attraverso il file robots.txt ma inserire nella stessa un meta tag robots, dai seguenti contenuti:

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

Fatto ciò, e sufficiente attendere che lo spider prelevi la pagina e si renda conto dell'esistenza del meta tag. Dell'uso di questo tag si è discusso approfonditamente nel capitolo dedicato ai meta tag della guida al posizionamento di Motoricerca.info.

<< Torna alla pagina principale