Cos'è il file robots.txt?

Il file robots.txt permette ai webmaster e agli amministratori di sistema di indicare agli spider dei motori di ricerca quali pagine web non debbano essere esaminate.

Lo standard per l'esclusione dei robot/spider si avvale dell'utilizzo di un normale file di testo, da creare attraverso un qualunque text editor (es. Notepad / Blocco Note di Windows).

Il file va chiamato "robots.txt" e contiene, in un particolare formato, delle istruzioni che possono impedire a tutti o alcuni spider il prelievo di alcune o tutte le pagine del sito.
Il file robots.txt va creato e pubblicato on-line nella directory principale del sito web. 


Ad esempio, se il sito ha indirizzo http://www.nomesito.it , il file dovrà essere accessibile all'indirizzo http://www.nomesito.it/robots.txt.

Tutti gli spider di quei motori di ricerca che hanno deciso di aderire a questo standard e di seguire le indicazioni del file robots.txt, ogni volta che accederanno al sito web, per prima cosa andranno a cercare nella directory principale il suddetto file e, se lo troveranno, seguiranno le direttive contenute al suo interno.

Contenuti del file robots.txt

Il file robots.txt contiene una lista di pagine e directory che gli spider NON possono prelevare.

Ciò significa che non esiste una istruzione per dire allo spider: "puoi prelevare questa pagina" ma esistono solo istruzioni per dirgli: "NON puoi prelevare questa pagina". Non a caso lo standard si chiama Standard per l'esclusione dei robot.

Quanto appena specificato è estremamente importante, in quanto molti degli errori che i webmaster spesso inseriscono nei file robots.txt hanno origine dall'errata comprensione di ciò che è possibile fare con essi.

 

Formato di robots.txt

Il file robots.txt contiene dei record, ognuno dei quali comprende due campi: il campo "User-agent" ed uno o più campi "Disallow".

Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte.

La sua sintassi è:

User-agent <duepunti> <spazio> <nome_dello_spider>

Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent.

La sintassi di questo campo è:

Disallow <duepunti> <spazio> <nome_del_file_o_directory>


Esempio di un record:

User-agent: googlebot
Disallow: /pagina di prova.html
Disallow: /appo/

Il suddetto record dice a Google ("googlebot" è il nome dello spider di Google) che non gli è permesso prelevare il file "pagina di prova.html" nè accedere alla directory "appo" e ai suoi contenuti, sottodirectory comprese.

Notate come il nome del file è preceduto da un carattere "/" (che indica la directory principale del sito) e come il nome della directory fa uso di un carattere "/" anche in coda.

Il campo User-agent può contenere un asterisco "*", sinonimo di "qualunque spider".

Per cui l'esempio seguente dice a tutti gli spider di non prelevare il file appo.html:

User-agent: *
Disallow: /appo.html

Il campo Disallow può contenere un carattere "/" ad indicare "qualunque file e directory".

L'esempio che segue impedisce a scooter (lo spider di Altavista) di prelevare qualunque cosa:

User-agent: scooter
Disallow: /

Infine, il campo Disallow può essere lasciato vuoto, ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo.

L'esempio seguente mostra come dire a tutti i motori di ricerca di prelevare tutti i file del sito:

User-agent: *
Disallow:

 

 

 

Hai trovato questa risposta utile?

 Stampa Articolo

Leggi

Come cambiare l'URL di amministrazione di Magento

Una delle operazioni consigliate per la sicurezza del vostro ecommerce Magento è sicuramente...

Come rimuovere lo spam dalle statistiche di Google Analytics

Da un monitoraggio dei tuoi siti hai notato diversi accessi referral da parte di: semalt.com;...

Recuperare la password di WordPress con phpMyAdmin

Hai perso la password del tuo blog WordPress e la mail che avevi indicato non è utilizzabile?...

Prenditi cura della sicurezza del tuo sito web

Di seguito riportiamo alcune operazioni volte a migliorare la sicurezza del proprio hosting e...

Proteggere WordPress dagli attacchi a forza bruta distribuiti

Come proteggere WordPress dagli attacchi a forza bruta distribuiti Il team de IlTuoSpazioWeb,...

Powered by WHMCompleteSolution