Dicas Info 10: Robots.txt

Trata-se de um documento em modo texto que deve ser incluído no diretório raiz de seu domínio, que essencialmente contém instruções para que
qualquer Crawlers cheguem ao site dizendo o que eles podem indexar.
O Robots.txt, é umasugestão para quem tem acesso aos servidores Web, abaixo segue um exemplo de comoescrever um arquivo em texto:

User-agent: *

Disallow: /

Uma das maneiras de controlar a visita dos Crawlers no site é ditar algumas regras a eles.
Essas regras podem ser:

Padrão de Exclusão de Robôs
Protocolo de Exclusão de Robôs
Robots.txt

Caso o arquivo robots.txt não permita que os indexadores visitem alguma página dosite, essa página não é indexada pelos mecanismos de busca, e consequentemente nãoaparece nos resultados das buscas.

User-agent – diz ao Crawler qual agente do usuário está sendo comandado.

* - indica que todos Crawlers estão cobertos.

: - indicam que informações importantes serão apresentadas.

Disallow – diz ao Crawler o que ele não pode acessar.

/ - indica todos os diretórios.

Dependendo do motor de buscas os Crawlers possuem diferentes nomes, segue
abaixo uma lista com alguns nomes de Crawlers:

Google: Googlebot
MSN: MSNbot
Yahoo! Web Search: Yahoo SLURP ou apenas SLURP
Ask: Teoma
Alta Vista: Scooter

Alguns sites não possuem os robots.txt, para visualizar um arquivo robots.txt de um site, basta digitar junto ao link uma extensão robots.txt.

Exemplo: www.osite.com/robots.txt

Deve-se tomar o cuidado para não colocar os arquivos em branco, vazio para o
Crawlers, esse documento em branco significa que não deseja que eles visitem a página da Web podendo assim, prejudicar no ranking do site.
Outra função do arquivo robots.txt é indicar aos indexadores dos mecanismos de
busca onde se localiza o Sitemap.xml do site.

Dicas Info 10

Robots.txt

Nenhum comentário:

Postar um comentário