Telarañas, pajaritas, redes sin escala y la Deep Web

La World Wide Web evoca imágenes de una telaraña gigante donde todo está conectado con todo lo demás en un patrón aleatorio y puedes ir de un borde de la web a otro simplemente siguiendo los enlaces correctos. Teóricamente, eso es lo que hace que la web sea diferente del sistema de índice típico: puede seguir hipervínculos de una página a otra. En la teoría del «pequeño mundo» de la web, se piensa que cada página web está separada de cualquier otra página web por un promedio de aproximadamente 19 clics. En 1968, el sociólogo Stanley Milgram inventó la teoría del mundo pequeño para las redes sociales al señalar que cada ser humano estaba separado de cualquier otro ser humano por solo seis grados de separación. En la Web, la teoría del mundo pequeño fue respaldada por investigaciones iniciales en una pequeña muestra de sitios web. Pero la investigación realizada conjuntamente por científicos de IBM, Compaq y Alta Vista encontró algo completamente diferente. Estos científicos utilizaron un rastreador web para identificar 200 millones de páginas web y seguir 1500 millones de enlaces en estas páginas.

El investigador descubrió que la telaraña no era para nada como una telaraña, sino más bien como una pajarita. La web de pajarita tenía un «componente conectado fuerte» (SCC) compuesto por unos 56 millones de páginas web. En el lado derecho de la corbata de lazo había un conjunto de 44 millones de páginas de SALIDA que se podían obtener desde el centro, pero desde las que no se podía regresar al centro. Las páginas OUT solían ser intranets corporativas y otras páginas de sitios web que están diseñadas para atraparlo en el sitio cuando aterriza. En el lado izquierdo de la pajarita había un conjunto de 44 millones de páginas IN desde las que se podía llegar al centro, pero no se podía viajar desde el centro. Estas eran páginas creadas recientemente que aún no se habían vinculado a muchas páginas centrales. Además, 43 millones de páginas se clasificaron como páginas «zarcillos» que no enlazaban con el centro y no se podían enlazar desde el centro. Sin embargo, las páginas de zarcillos a veces estaban vinculadas a páginas IN y/o OUT. Ocasionalmente, los zarcillos se unían entre sí sin pasar por el centro (estos se llaman «tubos»). Finalmente, quedaron 16 millones de páginas totalmente desconectadas de todo.

La investigación realizada por Albert-Lazlo Barabasi en la Universidad de Notre Dame proporciona más evidencia de la naturaleza no aleatoria y estructurada de la Web. El equipo de Barabasi descubrió que, lejos de ser una red aleatoria que explota exponencialmente de 50 mil millones de páginas web, la actividad en la Web en realidad estaba muy concentrada en «supernodos muy conectados» que proporcionaban conectividad a nodos menos conectados. Barabasi denominó a este tipo de red una red «sin escala» y encontró paralelos en el crecimiento de los cánceres, la transmisión de enfermedades y los virus informáticos. Resulta que las redes libres de escala son muy vulnerables a la destrucción: si se destruyen sus supernodos, la transmisión de mensajes se interrumpe rápidamente. Por el lado positivo, si usted es un vendedor que intenta «difundir el mensaje» sobre sus productos, coloque sus productos en uno de los súper nodos y observe cómo se difunden las noticias. O crea súper nodos y atrae a una gran audiencia.

Por lo tanto, la imagen de la web que surge de esta investigación es bastante diferente de los informes anteriores. No se admite la noción de que la mayoría de los pares de páginas web están separadas por un puñado de enlaces, casi siempre menos de 20, y que la cantidad de conexiones crecería exponencialmente con el tamaño de la web. De hecho, hay un 75% de posibilidades de que no haya una ruta de una página elegida al azar a otra. Con este conocimiento, ahora queda claro por qué los motores de búsqueda web más avanzados solo indexan un porcentaje muy pequeño de todas las páginas web y solo alrededor del 2% de la población general de servidores de Internet (alrededor de 400 millones). Los motores de búsqueda no pueden encontrar la mayoría de los sitios web porque sus páginas no están bien conectadas o vinculadas al núcleo central de la web. Otro hallazgo importante es la identificación de una «web profunda» compuesta por más de 900 mil millones de páginas web que no son fácilmente accesibles para los rastreadores web que utilizan la mayoría de las empresas de motores de búsqueda. En cambio, estas páginas son propietarias (no están disponibles para los rastreadores y los no suscriptores) como las páginas de (el Wall Street Journal) o no están fácilmente disponibles en las páginas web. En los últimos años, los motores de búsqueda más nuevos (como el motor de búsqueda médico Mammaheath) y los más antiguos como yahoo se han revisado para buscar en la web profunda. Debido a que los ingresos del comercio electrónico dependen en parte de que los clientes puedan encontrar un sitio web utilizando motores de búsqueda, los administradores de sitios web deben tomar medidas para garantizar que sus páginas web sean parte del núcleo central conectado o «supernodos» de la web. Una forma de hacer esto es asegurarse de que el sitio tenga tantos enlaces como sea posible hacia y desde otros sitios relevantes, especialmente a otros sitios dentro del SCC.

web

Viajes Universitarios by Viajes Fin de Curso

Transformación digital by Inteligencia de Negocios

#Telarañas #pajaritas #redes #sin #escala #Deep #Web

Síguenos

Entradas recientes

Comentarios recientes

Archivos

Categorías

Meta

Pin It on Pinterest