La minería de datos web y la recopilación de datos es un proceso crítico para muchas empresas de investigación de negocios y de mercado en la actualidad. Las técnicas de minería de datos web convencionales involucran motores de búsqueda como Google, Yahoo, AOL, etc. y búsquedas basadas en palabras clave, directorios y temas. Dado que la estructura existente de la Web no puede proporcionar información definida, inteligente y de alta calidad, la extracción sistemática de datos de la Web puede ayudarlo a obtener la inteligencia empresarial deseada y los datos relevantes.
Los factores que afectan la efectividad de las búsquedas basadas en palabras clave incluyen:
• El uso de palabras clave generales o amplias en los motores de búsqueda genera millones de páginas web, muchas de las cuales son totalmente irrelevantes.
• La semántica de palabras clave similares o de variantes múltiples puede generar resultados ambiguos. Por un instante, la palabra pantera podría ser un animal, un accesorio deportivo o el nombre de una película.
• Es muy posible que se pierda muchas páginas web muy relevantes que no incluyen directamente la palabra clave buscada.
El factor más importante que prohíbe el acceso a la web profunda es la eficacia de los rastreadores de los motores de búsqueda. Los rastreadores o bots de los motores de búsqueda modernos no pueden acceder a toda la web debido a las limitaciones de ancho de banda. Hay miles de bases de datos de Internet que pueden ofrecer información de alta calidad, escaneada por el editor y bien mantenida, pero los rastreadores no acceden a ellas.
Casi todos los motores de búsqueda tienen opciones limitadas para la combinación de consultas de palabras clave. Por ejemplo, Google y Yahoo ofrecen opciones como coincidencia de frase o coincidencia exacta para limitar los resultados de búsqueda. Exige más esfuerzos y tiempo para obtener la información más relevante. Dado que el comportamiento humano y las elecciones cambian con el tiempo, una página web debe actualizarse con más frecuencia para reflejar estas tendencias. Además, existe un espacio limitado para la minería de datos web multidimensional, ya que la búsqueda de información existente se basa en gran medida en índices basados en palabras clave, no en los datos reales.
Las limitaciones y los desafíos mencionados anteriormente han resultado en una búsqueda para descubrir y utilizar de manera eficiente y efectiva los recursos web. Envíenos cualquiera de sus consultas sobre los procesos de minería de datos web para explorar el tema con más detalle.
business intelligence
Viajes Universitarios by Viajes Fin de Curso
Transformación digital by Inteligencia de Negocios
#Limitaciones #desafíos #minería #datos #web #efectiva
Comentarios recientes