Cosa sono i Web Crawler, robots o spider e come funzionano?
Un Web Crawler (noto anche come web robot) è un programma o uno script automatico che esplora il World Wide Web metodicamente. Questo processo è chiamato Web Crawling o Spidering e, come la maggior parte delle cose nella vita, esistono Web Crawlers sia buoni che cattivi.
Molti siti famosi (in particolare i motori di ricerca come Google e Microsoft Bing), usano spidering come mezzo per fornire dati aggiornati. Un Web Crawler scansiona i siti, memorizza una copia delle pagine visitate e, quindi, le indicizza per fornire ricerche veloci.
I Crawlers possono anche essere utilizzati per automatizzare le attività di manutenzione di un sito web, come, ad esempio, il controllo dei collegamenti o la convalida del codice HTML. Purtroppo, esistono anche i crawlers che hanno intenzioni meno benevole, ad esempio la raccolta di indirizzi e-mail dalle pagine web per scopi di spamming, inserendo spam nel form dei blog e dei forum.
Come ci accorgiamo che un crawler sta scansionando il proprio sito web?
E’ normale vedere nel tuo sito i crawlers, e, se vuoi che il sito sia rintracciabile tramite i motori di ricerca, sicuramente devi leggere questo articolo!
Presenta un’applicazione chiamata AWSTAT all’interno dell’interfaccia cPanel che ti mostrerà i crawlers più comuni che lo hanno visitato. Per accedervi devi entrare nel tuo pannello di controllo, cPanel, e cliccare su AWSTAT. Puoi quindi scegliere per quale dei i tuoi domini (se ne possiedi più di uno) desideri visualizzare le statistiche.
AWSTAT aprirà una nuova finestra attraverso la quale sarà possibile avere una analisi completa dei visitatori che hanno effettuato l’accesso al tuo sito web, compreso i crawlers/spider web.
Visualizzerai una schermata simile a questa:
Quali problemi possono causare i web crawlers sul mio sito o su un server?
Devi tenere a mente che non tutti i web crawlers sono ‘amichevoli’ e anche quelli che lo sono (ad esempio Google) possono influenzare le prestazioni del server.
A volte un web crawler tenterà di scansionare il tuo sito in modo troppo aggressivo e questo potrà provocare un sovraccarico del server.
In questi casi i nostri sistemi di protezione automatici possono sospendere per un breve lasso di tempo il tuo sito per evitare inconvenienti che possono causare, appunto, sovraccarichi del server o forti rallentamenti. I bot possono anche consumare grandi quantità di larghezza di banda, guarda la seguente schermata giornaliera del sito di un cliente che è stato scansionato improvvisamente ed in modo aggressivo da Bing:
Ed un report mensile:

Cosa posso fare per controllare i web crawler?
Prendi in considerazione i seguenti scenari e soluzioni:
1) Il mio sito ha un modulo web e sto ricevendo molto SPAM.
Installare un buon sistema di Captcha, come Recaptcha da Google. Se disponi di un’applicazione di terze parti, verifica la presenza di plugin o estensioni che aggiungono la funzionalità Captcha.
2) Ricevo molto SPAM nel mio indirizzo di posta personale/aziendale, che viene visualizzato sul mio sito.
Se hai bisogno di pubblicare sul tuo sito l’indirizzo di posta personale/aziendale è necessario assicurarsi che sia nascosto nel codice sorgente. La maggior parte dei crawlers non lavora come le persone- infatti controllano solo la pagina web dei codici sorgente alla ricerca di indirizzi e-mail da prelevare.
Per combattere questo fenomeno analizzeremo due metodi:
a) Invece di scrivere il tuo indirizzo e-mail in formato testo, utilizza sempre un’immagine. Per creare una piccola immagine è possibile utilizzare qualsiasi programma di editing di immagini come Paint (Windows) o Gimp (Linux, Mac OS).
Guarda il seguente esempio creato utilizzando Paint:

Per visualizzare l’immagine sul tuo sito devi salvarla come .Gif o file .Png ed aggiungerla come un’immagine in linea con il testo.
b) Se vuoi il tuo indirizzo di posta elettronica in un normale formato testo, per consentire ai tuoi visitatori di copiarla ed incollarla facilmente, puoi provare la seguente soluzione:
http://www.maurits.vdschee.nl/php_hide_email/
Qui troverai diversi esempi e gli strumenti che ti aiuteranno a nascondere il tuo indirizzo e-mail. Una volta che hai implementato correttamente uno di questi metodi, vedrai qualcosa di simile a quanto segue:
3) Il mio sito web sta consumando una abbondante quantità di larghezza di banda e mi hanno confermato che ciò è dovuto a questi web crawlers.
Questo può essere molto difficile da affrontare, in quanto non vogliamo bloccare i web crawlers “buoni” altrimenti il SEO potrebbe risentirne. È comunque possibile bloccare alcuni noti bot “cattivi”. Per fare ciò devi modificare o creare il file .Htaccess nella cartella public_html ed aggiungere il codice trovato al seguente indirizzo nella parte superiore del file: http://pastebin.com/L397kQ9A
Nota: Una volta che accedi a questo URL, fare clic sul pulsante di commutazione.
4) I bot dei motori di ricerca stanno scansionando il mio sito ed una massiva indicizzazione sta sovraccaricando il mio account/web hosting.
E’ possibile cercare di prevenire questo fenomeno impostando il numero di secondi che intercorrono tra una richiesta di scansione sul sito dei web crawlers ed un’altra. Per fare ciò, devi modificare o creare un file robots.txt nella cartella del sul tuo spazio web (di solito public_html a meno che non sia un add-on di dominio) ed aggiungere le seguenti righe:
User-agent: * Crawl-delay: 5
Ti consigliamo, inoltre, di bloccare l’accesso alle cartelle che contengono dati sensibili che non dovrebbero essere accessibili dai web crawlers. Per esempio, se hai installato una applicazione in WordPress, puoi segnalare ai bot quali sono le cartelle alle quali non devono accede e che, quindi, non vuoi che si indicizzino, aggiungendo il seguente codice al file robots.txt:
Disallow: /feed/ Disallow: /trackback/ Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /xmlrpc.php Disallow: /wp-*
Infine, Google non obbedisce all’impostazione di Crawl-delay ma è possibile monitorare le scansioni del tuo sito utilizzando gli Strumenti Webmaster di Google. Per accedere a questo sistema ed attivarlo sul tuo sito è prima necessario iscriversi a Google:
http://www.google.com/webmasters/
È quindi possibile modificare la velocità di scansione dei web crawlers di Google seguendo questo articolo:
http://support.google.com/webmasters/bin/answer.py?hl=en&answer=48620
Nota, è necessario impostare la velocità di scansione ogni 90 giorni, o tornerà al suo valore di default.
Speriamo che queste informazioni ti siano state utili! Come sempre, se hai domande, non esitare contattarci!