Se conoce como Web
Superficial a la parte de la información de internet que es indexada por los
motores de búsqueda convencionales. La parte que no se indexa por diferentes motivos, se denomina Web
Profunda
La Web Superficial
o Visible comprende todos aquellos sitios cuya información puede ser
indexada por los robots de los buscadores convencionales y recuperada casi en
su totalidad mediante una consulta a sus formularios de búsqueda
Entre las características
principales de estos sitios encontramos que su información no está contenida en bases
de datos, son de libre acceso (no hay que registrarse para acceder), en general
están formadas por páginas Web estáticas (páginas o archivos con una URL fija y
accesibles desde otro enlace.).
La Web Profunda o
Invisible está compuesta
por aquellos sitios web a los que no pueden acceder los motores de búsqueda,
por diversos motivos como:
Contenido privado
protegido con contraseña
Documentos en formatos no indexables
Enlaces generados
mediante JavaScript o Flash
Contenidos que usan protocolos diferentes a HTTP o
HTTPS
Contenidos no enlazados; Contenido que varía según el dispositivo que
accede
Contenido dinámico generado como respuesta a un formulario
Restricciones
de acceso a documentos mediante robots.txt o captchas.
Generalmente es información almacenada y accesible
mediante bases de datos
Para poder acceder a la información disponible en las
bases de datos hay que hacer consultas a través de páginas dinámicas (ASP,
PHP...) es decir páginas que no tienen una URL fija y que se construyen en el
mismo instante (temporales) desapareciendo una vez cerrada la consulta.
Sherman y Price
identifican cuatro tipos de contenidos invisibles en la Web:
Web Opaca. Se compone de archivos que no están incluidos en los motores de búsqueda
por alguna de las siguientes razones:
Extensión de la
indexación
Frecuencia de la
indexación
Limitación del
número máximo de resultados visibles
URL’s desconectadas
La web privada: Se compone de archivos que no están
incluidos en los motores de búsqueda por alguna de estas razones:
Las páginas están
protegidas por contraseñas (passwords).
Contienen un
archivo “robots.txt” para evitar ser indizadas.
Contienen un campo
“noindex” para evitar que el buscador indice la parte correspondiente al cuerpo
de la página.
Este segmento de la web no representa una gran pérdida en
términos de valor de la información que contiene, ya que se trata, en general,
de documentos excluidos deliberadamente por su falta de utilidad.
La Web Propietaria
incluye aquellas páginas en las que es necesario registrarse para tener acceso
al contenido, ya sea de forma gratuita o de pago. Se dice que al menos 95% de la
Web profunda contiene información de acceso público y gratuito.
La Web realmente
invisible: Se compone de
páginas que no pueden ser indizadas por limitaciones técnicas de los
buscadores, como las siguientes:
Páginas web que
incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables
y archivos comprimidos.
Páginas generadas
dinámicamente, es decir, que se generan a partir de datos que introduce el
usuario.
Información
almacenada en bases de datos
relacionales.
Algunos ejemplos de
Web Profunda son:
La Biblioteca
Virtual WWW ( VL ) es el catálogo más antiguo de la Web , iniciado por Tim
Berners -Lee , el creador de HTML y de la propia Web, en 1991 en el CERN en
Ginebra.
Consulta a la
Enciclopedia Columbia con más de 57.000 artículos. Cuenta con algunas
ramificaciones, como son
Factmonster.com para niños, o un motor de búsqueda sólo para
biografías
DeeWebTech con cinco motores de búsqueda para temas específicos. Centra principalmente
su información en el campo de la ciencia, medicina y negocios
TechXtra centra su información en ingeniería, matemáticas y informática.