A Web profunda ficou menos profunda!

A Web profunda ou invisível acabou de se tornar mais pequena! Este termo (deep Web) refere-se ao conteúdo que existe na internet mas não está indexado ou acessível pelos motores de busca, que em 2000 estimava-se ser de 7.500 terabytes de dados. Grande parte deste conteúdo não indexado está por detrás de formulários HTML (<FORM>), ou seja, páginas que para lá chegar o utilizador tem que seleccionar por exemplo algum valor de uma lista (drop-down list).

O Google começou recentemente a experimentar submeter os formulários nos sites com maior autoridade, conseguindo dessa forma indexar o conteúdo que está para lá dessa barreira. O texto que o Googlebot usa para submeter esses formulários, consiste em texto seleccionado do próprio site. O Googlebot, como se seria de esperar, não submete formulários bloqueados pelo robot.txt, onde existem campos do tipo password, não submete formulários do tipo POST e evita formulários onde existam campos do tipo pessoal (nome, telefone, etc).

Esta medida, a juntar ao facto de o Googlebot já procurar links dentro de código JavaScript e dentro dos objectos Flash, torna o sistema de indexação do Google impressionante (Super Google).

Tópicos: