Se sei preoccupato per la privacy del tuo sito web e non vuoi che gli spider di Google - o altri motori di ricerca - eseguano la scansione di alcune pagine del tuo sito, allora "robots.txt" è la soluzione definitiva per confinare gli spider dove vuoi te.

Confuso? Probabilmente ti stai domandando perchè dovresti tenere gli spider dei motori di ricerca lontano dalle tue pagine web, quando invece la gente vuole proprio il contrario, ovvero essere indicizzati nei motori di ricerca.

File robots.txt

via http://www.flickr.com/photos/silvertje/4492547207/

Perchè lo spider di Google non deve entrare in alcune pagine del tuo sito

Se per esempio il tuo sito è un e-commerce e viene memorizzato il database su di esso, ti piacerebbe se i dati del database con le informazioni dei tuoi clienti fossero disponibili a tutti? Certo che no! Ma se non si prendono le misure cautelari istruendo lo spider a non visitare le pagine con informazioni critiche, i motori di ricerca come Google finiranno per indicizzare quelle pagine e a mostrarle nelle proprie SERP (risultati di ricerca). In questo modo, chiunque potrebbe visualizzare i dati dei tuoi clienti e abusarne, mettendo te e i tuoi clienti in una posizione a dir poco spiacevole.

Per evitare questi scenari disastrosi si dovrebbe usare il file robots.txt, la sua funzione è simile a quella di un buttafuori in un locale notturno. Proprio come i buttafuori non permettono agli ospiti di entrare in alcune sezioni private del club, il file robots.txt impedisce agli spider di visitare alcune parti del tuo sito. All'interno del file sono indicate le aree che non devono essere visitate da tutti o determinati spider.

Come creare il file robots.txt

Non tutti hanno bisogno di questo file. A meno che non si disponga di contenuti sensibili nel proprio sito web, che nessuno dovrebbe avere modo di vedere. Non è obbligatorio avere un file robots.txt all'interno del proprio sito.

Il file robots.txt contiene una serie di istruzioni rivolte agli spider dei motori di ricerca, riguardo i file e le directory che non dovrebbero scansionare. Una cosa importante da tenere a mente è che questo file va messo nella directory di livello più alto del sito, perché gli spider vanno a cercare il file robots.txt nella cartella principale dei siti e mai nelle sotto-cartelle.

Esempio http://www.ciccio.com/robots.txt OK
http://www.ciccio.com/pasticcio/robots.txt NO

Ci sono due parti importanti all'interno di un file robots.txt

User-agent: qui va indicato lo spider del motore di ricerca che può essere uno qualunque o uno in particolare, ad esempio Google. Disallow:/Allow: Questo è il campo che indica il permesso (Allow:) o il divieto (Disallow:) allo spider dei motori di ricerca, di eseguire la scansione dei file o delle directory specificate.

Se vuoi che gli spider di tutti i motori di ricerca non scansionino una directory, devi mettere un * nel campo User-Agent e poi indicare il nome della cartella con uno slash finale:

User-agent: *
Disallow: /cicciopasticcio/

Se invece vuoi che un determinato spider (in questo caso quello di Bing) non scansioni una cartella, fai così:

User-agent: Bingbot
Disallow: /cicciopasticcio/

Se vuoi bloccare completamente tutti gli spider, di tutti i motori di ricerca dal tuo sito web, scrivi così:

User-agent: *
Disallow: /

Se desideri bloccare la scansione di tutti gli spider, per una sola pagina in particolare, l'istruzione corretta è questa:

User-agent: *
Disallow: /cicciopasticcio.html

Google utilizza molti spider, come Googlebot-Image e Googlebot-Mobile, tuttavia anche loro seguono le istruzioni per Googlebot, ma non il contrario. Puoi impostare istruzioni specifiche per i bot specifici.

Per non far scansionare un'immagine allo spider di Google Images, fai così:

User-agent: Googlebot-Image
Disallow: /ciccio/pasticcio.jpg

Per bloccare tutte le immagini da Googlebot-Image, utilizzare:

User-agent: Googlebot-Image
Disallow: /

Se si desidera bloccare la scansione da parte di Google, di un determinato tipo di file, ad esempio i .pdf, l'istruzione è questa:

User-agent: Googlebot
Disallow: /.pdf

Se vuoi far scansionare un file ma bloccare tutto il resto di una cartella, fai così:

User-agent: *
Allow: /ciccio/pasticcio.html
Disallow: /ciccio/

Secondo le direttive standard dei motori di ricerca il campo "Allow" deve essere posto prima del campo "Disallow", quindi:

User-agent: *
Allow: /zigo/zago.gif
Disallow: /zigo/

è OK

mentre questo no:

User-agent: *
Disallow: /zigo/
Allow: /zigo/zago.gif

Come provare il file robots.txt senza fare danni

Se vuoi prevenire eventuali guai, puoi testare il file robots.txt da Google Webmaster Tools, quindi senza caricarlo sul sito. Lo strumento del Google Webmaster Tools ti mostrerà gli effetti delle istruzioni, senza mettere in pericolo il tuo sito. Ecco come fare:

1) Fare clic sul sito web che si desidera controllare, nella homepage del Google Webmaster Tools. File robots.txt 01

2) Nella sezione "Salute", cliccare su "URL bloccati". File robots.txt 02

3) Adesso copia le istruzioni del file robots.txt e incollale nella prima casella. File robots.txt 03

4)Inserisci i siti che vuoi testare nella casella "URL". File robots.txt 04

5) Scegli gli User-agent da usare. File robots.txt 05

Tieni presente che non puoi fare nessuna modifica reale dall'interno di questo strumento. Se vuoi cambiare le istruzioni devi modificare il file robots.txt che eventualmente si trova nella root del tuo sito, e se non c'è lo devi creare te.

Se hai indicato nel file robots.txt che alcune aree del sito non debbano essere scansionate, puoi stare tranquillo che sarà così. C'è però la possibilità che una pagina venga scansionata e indicizzata ugualmente. Questo può succedere se ad esempio quella pagina è linkata da qualche altro sito o pagina web. In questi casi puoi chiedere aiuto a Google qui.