Trata-se de um documento em modo texto que deve ser incluído no diretório raiz de seu domínio, que essencialmente contém instruções para que
qualquer Crawlers cheguem ao site dizendo o que eles podem indexar.
O Robots.txt, é umasugestão para quem tem acesso aos servidores Web, abaixo segue um exemplo de comoescrever um arquivo em texto:
User-agent: *
Disallow: /
Uma das maneiras de controlar a visita dos Crawlers no site é ditar algumas regras a eles.Essas regras podem ser:
- Padrão de Exclusão de Robôs
- Protocolo de Exclusão de Robôs
- Robots.txt
User-agent – diz ao Crawler qual agente do usuário está sendo comandado.
* - indica que todos Crawlers estão cobertos.
: - indicam que informações importantes serão apresentadas.
Disallow – diz ao Crawler o que ele não pode acessar.
/ - indica todos os diretórios.
Dependendo do motor de buscas os Crawlers possuem diferentes nomes, segue
abaixo uma lista com alguns nomes de Crawlers:
- Google: Googlebot
- MSN: MSNbot
- Yahoo! Web Search: Yahoo SLURP ou apenas SLURP
- Ask: Teoma
- Alta Vista: Scooter
Alguns sites não possuem os robots.txt, para visualizar um arquivo robots.txt de um site, basta digitar junto ao link uma extensão robots.txt.
Exemplo: www.osite.com/robots.txt
Deve-se tomar o cuidado para não colocar os arquivos em branco, vazio para o Crawlers, esse documento em branco significa que não deseja que eles visitem a página da Web podendo assim, prejudicar no ranking do site.
Outra função do arquivo robots.txt é indicar aos indexadores dos mecanismos de
busca onde se localiza o Sitemap.xml do site.
Nenhum comentário:
Postar um comentário