10 - Indirizziamo i ragni
di Andrea Cappello, 20 Luglio 2002
Abbiamo visto che, qualsiasi cosa facciamo, siamo noi a doverci adattare agli spider dei search engine. È possibile però far adattare i robots alle nostre esigenze, indirizzandoli (Cloaking) all'interno del sito, a nostro piacimento.
Se foste in possesso di un dominio, è possibile creare un file di nome robots.txt che va inserito nella root principale (www.dominio.com/robots.txt). In questo file, vanno inserite le istruzioni per "governare" il ragno. Ad esempio:
Escludere tutti i robots dai files contenuti nel dominio:
User-agent: *
Disallow: /
Consentire l'accesso a tutti i robots:
User-agent: *
Disallow:
(è anche possibile non creare il file o lasciarlo vuoto)
Escludere tutti i robots da una o più cartelle:
User-agent: *
Disallow: /cgi_bin/
Disallow: /secret/
Escludere un robot (nell'esempio quello di Excite)
da alcune cartelle:
User-agent: ArchitextSpider
Disallow: /cgi_bin/
Disallow: /secret/
Escludere un robot (nell'esempio quello di Altavista)
da tutti i file del dominio:
User-agent: Scooter
Disallow: /
Lasciare passare un unico robot (nell'esempio quello di Hotbot):
User-agent: Slurp
Disallow:
User-agent: *
Disallow: /
Per conoscere i nomi dei ragni di altri motori di ricerca, rimandiamo alle pagine dei rispettivi search engines.
Se non si è in possesso di un dominio, esiste un meta tag ad hoc, che nonostante la minore flessibilità e potenza rispetto all'inserimento del file robots.txt, consente un discreto risultato:
<META NAME="robots" CONTENT="noindex, nofollow">
Il Cloaking, se usato in maniera scorretta inviando informazioni sbagliate agli indicizzatori, può portare al "banneraggio" del sito.
» Vai alla prossima lezione: Webpromotion
in breve
» Torna all'indice del corso al top nei motori





