Cos'è il file robots.txt?

Il file robots.txt permette ai webmaster e agli amministratori di sistema di indicare agli spider dei motori di ricerca quali pagine web non debbano essere esaminate.

Lo standard per l'esclusione dei robot/spider si avvale dell'utilizzo di un normale file di testo, da creare attraverso un qualunque text editor (es. Notepad / Blocco Note di Windows).

Il file va chiamato "robots.txt" e contiene, in un particolare formato, delle istruzioni che possono impedire a tutti o alcuni spider il prelievo di alcune o tutte le pagine del sito.
Il file robots.txt va creato e pubblicato on-line nella directory principale del sito web. 


Ad esempio, se il sito ha indirizzo http://www.nomesito.it , il file dovrà essere accessibile all'indirizzo http://www.nomesito.it/robots.txt.

Tutti gli spider di quei motori di ricerca che hanno deciso di aderire a questo standard e di seguire le indicazioni del file robots.txt, ogni volta che accederanno al sito web, per prima cosa andranno a cercare nella directory principale il suddetto file e, se lo troveranno, seguiranno le direttive contenute al suo interno.

Contenuti del file robots.txt

Il file robots.txt contiene una lista di pagine e directory che gli spider NON possono prelevare.

Ciò significa che non esiste una istruzione per dire allo spider: "puoi prelevare questa pagina" ma esistono solo istruzioni per dirgli: "NON puoi prelevare questa pagina". Non a caso lo standard si chiama Standard per l'esclusione dei robot.

Quanto appena specificato è estremamente importante, in quanto molti degli errori che i webmaster spesso inseriscono nei file robots.txt hanno origine dall'errata comprensione di ciò che è possibile fare con essi.

 

Formato di robots.txt

Il file robots.txt contiene dei record, ognuno dei quali comprende due campi: il campo "User-agent" ed uno o più campi "Disallow".

Il campo User-agent serve ad indicare a quale robot/spider le direttive successive sono rivolte.

La sua sintassi è:

User-agent <duepunti> <spazio> <nome_dello_spider>

Il campo Disallow serve a indicare a quali file e/o directory non può accedere lo spider indicato nel campo User-agent.

La sintassi di questo campo è:

Disallow <duepunti> <spazio> <nome_del_file_o_directory>


Esempio di un record:

User-agent: googlebot
Disallow: /pagina di prova.html
Disallow: /appo/

Il suddetto record dice a Google ("googlebot" è il nome dello spider di Google) che non gli è permesso prelevare il file "pagina di prova.html" nè accedere alla directory "appo" e ai suoi contenuti, sottodirectory comprese.

Notate come il nome del file è preceduto da un carattere "/" (che indica la directory principale del sito) e come il nome della directory fa uso di un carattere "/" anche in coda.

Il campo User-agent può contenere un asterisco "*", sinonimo di "qualunque spider".

Per cui l'esempio seguente dice a tutti gli spider di non prelevare il file appo.html:

User-agent: *
Disallow: /appo.html

Il campo Disallow può contenere un carattere "/" ad indicare "qualunque file e directory".

L'esempio che segue impedisce a scooter (lo spider di Altavista) di prelevare qualunque cosa:

User-agent: scooter
Disallow: /

Infine, il campo Disallow può essere lasciato vuoto, ad indicare che non ci sono file o directory di cui si vuole impedire il prelievo.

L'esempio seguente mostra come dire a tutti i motori di ricerca di prelevare tutti i file del sito:

User-agent: *
Disallow:

 

 

 

Hai trovato questa risposta utile?

 Stampa Articolo

Leggi

Wordpress cambiare tema da MySQL

Entrate nel cPanel e clicate su phpMyAdminDentro PhpMyAdmin in alto a sinistra, selezionate il...

Come cambiare l'intestazione su WordPress

Questo tutorial vi mostrerà come cambiare l'intestazione su WordPress. Questo tutorial presuppone...

Come rimuovere lo spam dalle statistiche di Google Analytics

Da un monitoraggio dei tuoi siti hai notato diversi accessi referral da parte di: semalt.com;...

Cosa fare quando non si dispone dei permessi per aggiornare WordPress o installare plugin?

I permessi di tutti gli utenti di Wordpress sono impostati nel database; come amministratore di...

Come rinforzare il login di WordPress

Per proteggere il file wp-login.php è necessario definire una nuova utenza e password per il file...

Powered by WHMCompleteSolution