Esse mecanismo é baseado em robôs (spider ou crawlers) que usam um software especial para vasculhar as páginas da internet. Esse software pode ser chamado de bot, rebot, spider ou crawler, eles navegam em páginas e encontram um site seguindo links destas páginas.
Os Crawlers coletam conteúdo dos sites e os salvam em um banco de dados que é ordenado e indexado de acordo com o algoritmo do motor de busca. Ele anota os links do site e começa a ler o texto e vai seguindo os links, esses links também chamados de Fronteira de Navegação levam os Crawlers a outras páginas ou até mesmo faz com que o Crawlers saia do site.
Depois que um Crawlers encontra uma página, ele solicita esta página a um servidor Web através de um HTTP, o servidor então retorna a fonte do código em HTML da sua página para o Crawlers. O Crawlers efetua a leitura, dando mais valor ao conteúdo e a forma que ele foi colocado no código fonte, desconsiderando qualquer tipo de arquivo de mídia.
Dessa forma, a visibilidade do conteúdo deve ser levada em conta na hora do desenvolvimento.
Depois de ler a página, o mecanismo de busca vai comprimir e armazená-la nos índices de mecanismos de buscas (Search Engine Index). Os dados são armazenados nesses índices de maneira que a busca consiga encontrar as páginas relevantes de acordo com as palavras-chave informadas e exibi-las nas páginas de resultado.
O processo de inclusão da página no índice é chamado “indexação”, e é dessa forma que ela aparecerá nos resultados dos mecanismos de buscas, podendo variar de posição.
O mecanismo de busca utiliza muitos fatores internos e externos para avaliar o posicionamento da página, esse processo é chamado de ranking.
Alguns sites podem ser penalizados perdendo algumas posições no ranking do motor de buscas se não cooperarem com os Crawlers.
Um buscador que utilizava esse mecanismo de busca era o Google, atualmente ele anunciou o seu novo mecanismo de indexação de web, chamado Caffeine.
Nenhum comentário:
Postar um comentário