Este mês um de nossos sites teve toda a sua banda de tráfego consumida por robos desconhecidos, conforme tabela abaixo: 

Buscadores/Spiders visitantes
15 Buscadores Visitantes Hits Bytes Última visita
Unknown robot (identified by ‘robot’) 562507+844 17.88 GB 30 Set 2007 - 23:59
Googlebot 37786+1351 1.35 GB 30 Set 2007 - 23:59
Unknown robot (identified by ‘bot/’ or ‘bot-’) 4049+119 131.54 MB 28 Set 2007 - 17:02
Internet Shinchakubin 2442 10.15 MB 30 Set 2007 - 18:23
Alexa (IA Archiver) 2163+186 77.45 MB 30 Set 2007 - 23:59
Yahoo Slurp 1029+404 36.10 MB 30 Set 2007 - 20:45
MSNBot 292+136 10.46 MB 29 Set 2007 - 12:27
MSNBot-media 308+45 10.41 MB 30 Set 2007 - 23:37
Unknown robot (identified by ’spider’) 246+42 8.58 MB 25 Set 2007 - 03:28
Unknown robot (identified by ‘crawl’) 46+181 783.88 KB 30 Set 2007 - 04:03
Unknown robot (identified by hit on ‘robots.txt’) 0+88 11.26 KB 27 Set 2007 - 01:57
Ask 33+24 897.30 KB 30 Set 2007 - 21:18
The web archive (IA Archiver) 0+47 6.01 KB 27 Set 2007 - 08:41
Yahoo! Slurp China 1+1 44.76 KB 11 Set 2007 - 03:31
Netcraft 1 0 05 Set 2007 - 11:55

* Robots shown here gave hits or traffic “not viewed” by visitors, so they are not included in other charts. Numbers after + are successful hits on “robots.txt” files

Para solucionar o problema nosso robot.txt foi alterado para o seguinte arquivo:

User-agent: Googlebot

Crawl-delay: 10

Disallow:

User-agent: MSNBot

Crawl-delay: 10

Disallow:

User-agent: Slurp

Crawl-delay: 10

Disallow:

User-agent: Teoma

Crawl-delay: 10

Disallow:

User-agent: Gigabot

Crawl-delay: 10

Disallow:

User-agent: Scrubby

Crawl-delay: 10

Disallow:

User-agent: Robozilla

Crawl-delay: 10

Disallow:

User-agent: KBroker

Crawl-delay: 10

Disallow:

User-agent: Ultraseek

Crawl-delay: 10

Disallow:

User-agent: *

Crawl-delay: 10

Disallow: /

User-agent: *

Crawl-delay: 20

Disallow: /mainpages

Disallow: /*.jpg
 
Por partes! 
Liberei acesso aos robos conhecidos,
User-agent: Googlebot

Crawl-delay: 10

Disallow:
Bloqueados os desconhecido,
User-agent: *

Crawl-delay: 10

Disallow: /
Desabilitados os diretórios e arquivos com extensões especificas:
User-agent: *

Crawl-delay: 20

Disallow: /mainpages

Disallow: /*.jpg
 

Outras opcões, que não me interessava de momento:

desativar arquivos com ? na url

Disallow: /*?*

desabilitar o duggmirror

User-agent: duggmirror Disallow: /

desabilitar o site do WayBack

User-agent: ia_archiver Disallow: /

desabilitar google na busca por imagens

User-agent: Googlebot-Image Disallow: Allow: /*

Habilitar adsense em todo o site

User-agent: Mediapartners-Google* Disallow: Allow: /*

No próximo mês digo como foi o Outubro Vermelho!

Posted by Emule, filed under Sem categoria | . Date: outubro 2, 2007, 9:45 am | Seja o primeiro a comentar »