A volte, per molteplici ragioni, si ha l'esigenza di impedire che i
motori di ricerca indicizzino un sito web o che eliminino dai propri
database pagine di un sito web precedentemente archiviato.
Questo obiettivo può a volte risultare difficoltoso, in quanto lo scopo
dei maggiori motori di ricerca è quello di individuare e archiviare tutte
le pagine web (o più generalmente tutti i documenti) potenzialmente
raggiungibili da parte di un normale utente che naviga sul web.
A seconda che il sito web sia già stato indicizzato dai motori di
ricerca o non ancora inserito nei loro archivi, per eliminare un sito
dagli archivi è necessario seguire tecniche differenti.
Per i siti non ancora archiviati
Se il sito web non è stato ancora archiviato dai motori di ricerca,
nella maggior parte dei casi è possibile impedirne l'indicizzazione
utilizzando il file robots.txt. Si tratta di un normale file di testo
contenente istruzioni in un particolare formato attraverso le quali si
chiede agli spider dei motori di ricerca di non indicizzare una o più
pagine del sito.
Ricorrere all'utilizzo del robots.txt è generalmente la prima soluzione
che viene in mente quando si ha la necessità di impedire l'archiviazione
di un sito web e nella guida al posizionamento di Motoricerca.info è
presente un capitolo dedicato al file
robots.txt, nel quale viene spiegata la sintassi da usare per
redigerlo correttamente. Tuttavia l'uso di questo file non garantisce una
piena sicurezza sulla non-indicizzazione del sito web.
I contenuti del suddetto file sono infatti solo una richiesta
agli spider dei motori e non si può escludere a priori che alcuni spider
decidano di ignorare tale richiesta o che abbiano problemi tecnici ad
interpretare correttamente i contenuti del file. Per tale ragione, per
quanto l'utilizzo del file robots.txt non va escluso, è
spesso consigliato aggiungere forme di impedimento di accesso più
consistenti.
Una di queste tecniche per la limitazione degli accessi può essere
implementata attraverso l'attivazione di un controllo con username e
password (nome utente e parola d'accesso). Praticamente tutti i server web
(Apache, IIS, ecc.) implementano una forma basilare di protezione con
username/password e la soluzione, nella maggioranza dei casi, è a portata
di mano nei pannelli di controllo che il web host fornisce ai webmaster.
Nel caso in cui la società di hosting non fornisca un metodo semplice
per proteggere una directory del sito con username e password, è sempre
possibile procedere autonomamente, installando uno dei tantissimi script
gratuiti che possono essere trovati sul web. Esistono infatti moltissimi
script dedicati alla protezione con password di intere directory o singole
pagine di un sito web (il sito HotScripts
è un buon luogo dove poterne trovare diversi).
Va però specificato che lo script da scegliere deve agire "lato
server" e non "lato client". Ciò significa che il server su
cui risiede il sito deve essere abilitato all'esecuzione del linguaggio in
cui lo script scelto è stato programmato (PHP, ASP, Python, Perl, ecc.) e
che sono da escludere soluzioni di protezione funzionanti solo attraverso
Javascript o l'Actionscript dei file in tecnologia Flash o qualsiasi altro
linguaggio la cui esecuzione è affidata al browser dell'utente.
È evidente che l'attivazione di un controllo username/password
influisce non solo sugli spider dei motori di ricerca ma anche su tutti
quegli utenti che non conoscono i dati di accesso. Sorge dunque spontanea
la domanda se esiste un modo per dare accesso libero agli utenti e
impedire l'accesso alle pagine solo agli spider dei motori di ricerca, e
la risposta e "no" o, per essere più precisi, "non se si
intende trovare una soluzione semplice ed efficace al 100%".
È possibile in teoria ricorrere ad una tecnica chiamata
cloaking o IP delivery. Si tratta di una tecnica che fa
uso di particolari impostazioni del web server o di appositi script
sviluppati in linguaggi lato server e che permette di spedire versioni
diverse di una pagina web a seconda di chi la richiede. In poche parole è
teoricamente possibile spedire una pagina protetta da password ad uno
spider ed una pagina "normale" ad un non-spider.
Le ragioni per le quali è sconsigliato utilizzare le tecniche di
cloaking sono almeno due: innanzitutto il cloaking si basa su un archivio
di indirizzi IP usati dagli spider dei motori di ricerca ed una prima
difficoltà consiste nel tenerlo sempre e costantemente aggiornato. In
secondo luogo il cloaking è una tecnica usata anche dagli spammer dei
motori di ricerca, con l'obiettivo di spedire agli spider pagine dai
contenuti fortemente ottimizzati, se non addirittura piene di keyword.
Di fronte all'impegno richiesto per mantenere aggiornato l'archivio di
indirizzi IP necessario al riconoscimento degli spider e al dubbio di
venire scambiati per spammer da qualche motore di ricerca particolarmente
meticoloso, è decisamente meglio escludere il cloaking e preferire
l'accoppiata robots.txt e accesso protetto da password, che funziona
egregiamente.
Per i siti già archiviati
Le tecniche sopra esposte sono applicabili anche nel caso di siti web
che sono già stati archiviati in tutto o in parte dai motori di ricerca.
Nel momento in cui uno spider individua in un file robots.txt delle
direttive che richiedono di non indicizzare una o più pagine o directory
di un sito, il motore di ricerca a cui lo spider fa capo reagisce di
conseguenza, eliminando dagli archivi le pagine precedentemente
archiviate.
Medesimo discorso va fatto per quanto concerne l'utilizzo di sistemi di
protezione con password, che generalmente inviano agli spider dei codici
che identificano chiaramente le pagine come non accessibili. Anche in
questo caso i motori di ricerca eliminano dall'archivio, e
conseguentemente dai risultati delle ricerche, le pagine non più
considerabili accessibili.
Tuttavia nel caso di pagine già archiviate, possono subentrare problemi
la cui soluzione non è così immediata da individuare.
Il primo di questi problemi consiste nel fatto che, per accorgersi di
una nuova richiesta di non indicizzazione fornita attraverso le direttive
del file robots.txt o per mezzo di pagine protette da password, gli spider
di un motore devono comunque prelevare il file robots.txt o tentare di
accedere alle pagine che si intende far cancellare dagli archivi del
motore.
In presenza di un sito web scansionato di rado dagli spider, ciò
implica che prima di poter vedere le pagine eliminate dagli archivi può
trascorrere un considerevole lasso di tempo. Visto che in molti casi la
richiesta di eliminazione delle pagine dagli archivi di un motore nasce da
errori del webmaster che richiedono di essere risolti in tempi ristretti,
alcuni motori di ricerca hanno implementato delle soluzioni volte a
velocizzare l'operazione di cancellazione delle pagine dai propri archivi.
È ad esempio il caso di Google che offre, oltre a
sistemi tradizionali
per la rimozione di pagine dall'indice, una
soluzione per
eliminare urgentemente un insieme di pagine o un intero sito. Si
tratta di un sistema che prevede che il webmaster di un sito si faccia
effettivamente riconoscere come qualcuno che ha diritto a chiedere
l'eliminazione delle pagine dal database di Google. La procedura non è
macchinosa ed è sufficiente seguire le istruzioni che verranno spedite
al webmaster in e-mail.
Il secondo problema a cui si va incontro in caso di pagine
precedentemente archiviate dai motori di ricerca nasce quando, pur
avendo ottenuto la rimozione di una pagina attraverso le
direttive di un file robots.txt, nei risultati delle ricerche continua ad
apparire un riferimento (ovvero un link) alla pagina web cancellata.
Questo fenomeno nasce dal fatto che il motore di ricerca conosce delle
pagine, in qualche parte del Web, che contengono link che puntano alla
pagina eliminata. Per questa ragione, pur essendo stata fisicamente
rimossa dagli archivi, le informazioni acquisite attraverso i link che
puntano ad essa sono sufficienti a garantire al motore di ricerca
abbastanza parametri per classificare la pagina e per includerla nei
risultati della ricerca.
È evidente che il più delle volte questo comportamento costituisce un
fastidio per il webmaster che ha fatto la richiesta di rimozione della
pagina dagli archivi del motore, in quanto spesso la richiesta di
rimozione sottintende anche una richiesta a non mostrare un link alla
pagina nei risultati delle ricerche.
Per ovviare a questo problema esistono due strade: eliminare
tutti i link sul Web che puntano alla pagina che non si
desidera veder apparire nei risultati di ricerca oppure non
impedire il prelievo della pagina attraverso il file robots.txt
ma inserire nella stessa un meta tag robots, dai seguenti contenuti:
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
Fatto ciò, e sufficiente attendere che lo spider prelevi la pagina e si
renda conto dell'esistenza del meta tag. Dell'uso di questo tag si
è discusso approfonditamente nel capitolo dedicato ai
meta tag della guida al posizionamento di
Motoricerca.info.
<< Torna alla pagina principale