lunes, 9 de noviembre de 2015

Web Superficial (visible) y Web Profunda (invisible)





Se conoce como Web Superficial a la parte de la información de internet que es indexada por los motores de búsqueda convencionales. La parte que no se indexa por diferentes motivos, se denomina Web Profunda

La Web Superficial o Visible comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda
Entre las características principales de estos sitios encontramos  que su información no está contenida en bases de datos, son de libre acceso (no hay que registrarse para acceder), en general están formadas por páginas Web estáticas (páginas o archivos con una URL fija y accesibles desde otro enlace.).

La Web Profunda o Invisible está compuesta por aquellos sitios web a los que no pueden acceder los motores de búsqueda, por diversos motivos como:
Contenido privado protegido con contraseña
Documentos en formatos no indexables
Enlaces generados mediante JavaScript o Flash
Contenidos que usan protocolos diferentes a HTTP o HTTPS
Contenidos no enlazados; Contenido que varía según el dispositivo que accede
Contenido dinámico generado como respuesta a un formulario
Restricciones de acceso a documentos mediante robots.txt o captchas.
Generalmente es información almacenada y accesible mediante bases de datos
Para poder acceder a la información disponible en las bases de datos hay que hacer consultas a través de páginas dinámicas (ASP, PHP...) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web:

Web Opaca. Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de las siguientes razones:
Extensión de la indexación
Frecuencia de la indexación
Limitación del número máximo de resultados visibles
URL’s desconectadas

La web privada: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
Las páginas están protegidas por contraseñas (passwords).
Contienen un archivo “robots.txt” para evitar ser indizadas.
Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad.

La Web Propietaria incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o de pago. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.

La Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
Páginas web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.
Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
Información almacenada en bases de datos relacionales.

Algunos ejemplos de Web Profunda son:

La Biblioteca Virtual WWW ( VL ) es el catálogo más antiguo de la Web , iniciado por Tim Berners -Lee , el creador de HTML y de la propia Web, en 1991 en el CERN en Ginebra.

Consulta a la Enciclopedia Columbia con más de 57.000 artículos. Cuenta con algunas ramificaciones, como son Factmonster.com para niños, o un motor de búsqueda sólo para biografías

DeeWebTech con cinco motores de búsqueda para temas específicos. Centra principalmente su información en el campo de la ciencia, medicina y negocios


TechXtra centra su información en ingeniería, matemáticas y informática.




No hay comentarios:

Publicar un comentario