Sistemas de búsqueda de información en la web

Buscadores generalistas

r

Funciones:1.Acceder a sitios web, localizar y descargar documentos.2. Extraer el contenido textual (y multimedia) de los documentos descargados.3. Analizar e indexar el contenido de los documentos para construir los índices del motor.4. Realizar el análisis de enlaces de cada página y otorgar alguna medida de popularidad.5. Permitir la formulación de consultas mediante palabras clave.6. Facilitar el acceso a los resultados de una consulta ordenándolos conforme a unos criterios de relevancia.

Funciones

1. Acceder a sitios web, localizar y descargar documentos

2. Extraer el contenido textual (y multimedia) de los documentos descargados.

3. Analizar e indexar el contenido de los documentos para construir los índices del motor.

4. Realizar el análisis de enlaces de cada página y otorgar alguna medida de popularidad.

5. Permitir la formulación de consultas mediante palabras clave.

6. Facilitar el acceso a los resultados de una consulta ordenándolos conforme a unos criterios de relevancia.

Componentes

Rastreador del motor de búsqueda o Spider.

r

Un spider (araña) o un crawler (rastreador) es un programa que explora la Web de forma sistemática con dos objetivos principales: 1. Interactuar con los servidores de sitios web para descargar páginas web u otros documentos y 2. Obtener nuevas direcciones (URL) para añadir a su lista de enlaces pendientes de revisar.

Sistema de recuperación de información

r

Crea listados internos con todas las palabras que aparecen en el texto de forma que al realizar la búsqueda se rastreen estas palabras, y no el documento entero.

Índices directos

Índices invertidos

Interfaz

Formulario de consulta

Búsqueda simple

Búsqueda avanzada

Página de resultados

Resultados

Enlaces patrocinados

r

Siempre resaltados de alguna forma para distinguir que se ha pagado para que estén allí

Software de relevancia

r

Su función es la ordenación de los resultados, es decir, la construcción del ranking de resultados en función de unos criterios de relevancia. Algunos de ellos son:1. Enlaces: enlaces de entrada y URL.2. Contenido/Propiedades de la página: frecuencia / ubicación / formato de las palabras clave, etc.3. Resultados pagados y Resultados no pagados.

Principales Buscadores Generalistas

Google

Yahoo!

Bing

Ask

a

Metabuscadores

r

Son herramientas para la búsqueda de recursos web que utilizan los índices de varios buscadores para satisfacer las consultas de sus usuarios.Recogen los mejores resultados que ofrecen diferentes buscadores para una misma consulta (normalmente la coincidencia en los principales resultados de distintos buscadores para la misma consulta está por debajo del 20%).

Tradicionales

Metacrawler

a

Dogpile

a

De agrupamiento

r

Agrupan los resultados según su significado

Yippy

Visuales

r

Ordena los resultados en forma de gráfico

Carrot

Buscadores especializados

r

Ventajas:- Su capacidad para buscar en páginas que no están indexadas por los buscadores generalistas (web invisible)- Mayor funcionalidad y potencial de búsquedaInconveniente:- Necesidad de acudir a un buscador u otro en función de la temática

Académicos

Fuentes

Universidades (.edu)

Centros de investigación (NASA, RAND; etc.)

Gobierno

Editores de libros y revistas

Colecciones de bibliotecas

Repositorios digitales (e-prints, e-books...)

Tipos de documentos recuperados

Páginas web (html) y documentos publicados en instituciones académicas o científicas

Artículos de publicaciones científicas (abiertas o de pago)

Trabajos académicos (tesis doctorales, tesis de licenciatura...)

Documentos depositados en repositorios científicos

Patentes

Libros (monografías)

Principales buscadores académicos

Google Scholar

r

Pertenece a Google. Contiene una amplia tipologia de documentos, y también tiene acceso a libros completos (por acuerdos con bibliotecas).

Scirus

r

Es el único que ha conseguido superar al buscador de Google en el ámbito académico.

Science Research

r

Aunque no está al nivel de Google Scholar o Scirus, resulta muy útil en la búsqueda de documentos científicos (editoriales y revistas científicas).

a

Libros

Google Books

Informes

r

Obtención de información de carácter económica o empresarial, a través de informes o estudios de mercado.Normalmente este tipo de información sólo puede ser accedida previo pago

Esade Knowledge

r

Es probablemente el recurso más importante de España para la búsqueda de información sectorial y empresarial

a

ICEX

r

Elabora y difunde información sobre la oferta de productos españoles y sobre mercados internacionales

Blogs

Google Blogs

Technorati

Mapas

Google Maps

Precios

Kelkoo

Buscadores semánticos

Sigma

Wolfram Aplha

r

más información sobre Wolfram Alpha:http://www.nl.gob.mx/pics/pages/educacion_maestros_en_linea_base/maestrosenlinea15.pdf#page=18

a