Diogo Besson :: tecnologia

Sitemaps. Os mapas do site

Sitemaps. Os mapas do site

Sitemaps. Os mapas do site, segue a onda da indexação para motores de busca, vou falar aqui um tiquinho mais de sitemaps.

O que é um sitemap?

O sitemap é um documento que permite uma visão estrutural de como o seu site foi montado. Ele pega as conexões entre as páginas e hierarquiza, formando árvores de ligações entre os arquivos.

Ele pode ser um HTML simples, um HTML com imagens (só pra ficar mais buniltiful), uma imagem simples (jpg, gif, etc…), um xml… Enfim,  qualquer representação gráfica da infra-estrutura de ligações de arquivos dentro do seu ambiente web.

sitemap feito via dreamweaver

sitemap feito via dreamweaver

O próprio Dreamweaver tem um mapa muito interessante formado automaticamente no ambiente de desenvolvimento. Ele cria uma estrutura de árvore usando icones e linhas.

Antigamente, eu usava esse recurso  na formatação de projetos para apresentar aos meus clientes, pois é a forma mais rápida de ter um visual de como os arquivos do site vão conectar-se entre si. De certa forma ainda uso, mas com menos frequência, pois estou preferindo editar a estrutura e desenhar as telas no photoshop ou outro editor gráfico mais bacana.

Esse exemplo de sitemap é altamente gráfico e serve apenas como referência visual. Temos que ter em mente que os sitemaps são muito mais importantes que isso.

Os mecanismos de busca, leia-se google, yahoo e outros, usam os sitemaps em html e xml para localizar as conexões mais complicadas e indexar páginas sem recorrer exclusivamente ao robots.txt.

Particularmente eu acredito que o robots.txt também é um sitemap no modo texto. Ele segue um padrão próprio, assim como os arquivos ror.xml o fazem. Não deixam de ser mais ou menos importantes para os motores de busca por causa disso.

Por que um sitemap é importante?

O sitemap é especialmente importante para as páginas que não tem links html definidos ou estáticos. Se as suas conexões mudam com muita frequência, se você tem páginas totalmente feitas em Flash ou Silverlight, se você costuma usar muito ajax para montar o conteúdo do seu site ou até mesmo se você tiver apenas páginas órfãs dentro da sua estrutura no ambiente web.

Essas páginas sem o “href” ou sem nenhuma página parente conectada geralmente são fracamente parseadas pelos robozinhos dos buscadores, o que torna tudo bem problemático em termos de divulgação e propagação.

Falando mais especificamente do google, podemos ter certeza de que seus bots pegam informações dos sitemaps que ajudam a definir a relevância das páginas, as datas e frequência das alterações de conteúdo, visto que ele utiliza o protocolo 0.9 do sitemaps.org.

Após uma pesquisa light, descobri alguns truques que podem ser úteis:

Para gerar um sitemap

Essa ferramenta é bem completa. Foi feita em Java e gera o sitemap a partir dos hrefs do seu website. Funciona bem no ie8, mas aqui não consegui abrir com o firefox.

Para gerar sitemaps simplificados

Esse site tem um gerador de sitemaps mais simples e cria um xml da raiz do seu site. Não serve pra muita coisa se você não completar as informações na unha, porém tem um exemplo bacana de como um ror.xml é gerado.

Para validar seu sitemap

A W3C fornece uma gama de ferramentas e regras úteis para que você possa validar seu sitemap.xml de forma que não exista sombra de dúvida sobre o assunto. Acho muito complicado, porém necessário. Um bom desenvolvedor sabe usar as regras mais chatas a seu favor.

Não esqueça que fazer isso, não é o bastante.

Para que google, yahoo e cia reconheçam esse monte de tranqueiras que você teve que acrescentar no seu site para que os mecanismos de busca possam encontrar e indexar os documentos, você deve mostrar para eles que os addons já estão funcionando no seu site.

Não sei como funciona nos outros, mas o google tem uma ferramenta chamada WEBMASTERS, que auxilia você a validar seu ambiente web, dizendo ao google que website x pertence a você e que ambos os recursos de sitemaps (robots.txt e sitemap.xml) estão ativados para indexação.

Espero que após esses milhões de tarefas, seu website possa ser indexado inteligentemente pelos motores de busca.

um abraço ao visitante.

Diogo Besson

2 Comments

  1. Eduardo

    No robots.txt também é interessante especificar quais pastas os indexadores devem ignorar. É uma medida adicional de segurança para evitar indexação de conteúdo não público.
    Deixo a sugestão de um estudo sobre o erro 301 e o , este que passou a ser adotado em 2009, pouco difundidos mas muito úteis aos indexadores.

  2. Eduardo

    O estudo adicional, que ficou cortado no comentário anterior, é do elemento link rel=”canonical”, que pode padronizar a url indexada.

Leave a Comment

O seu endereço de e-mail não será publicado.