Búsqueda de información en la web

Contenidos II

¿Qué es la web?

Web 2.0: es el término acuñado para referirse a la nueva web que desde un punto de vista conceptual, no técnico, está surgiendo. Se caracteriza por la dimensión social y comunicativa aparecida en la web, y de la que son buen ejemplo los blogs, redes sociales, foros, wikis, etc.
¿Existe una Web 3.0?
Web Semántica: evolución tecnológica de la web actual hacia una nueva web que persigue la comprensión de sus contenidos por las máquinas.

¿Qué es un buscador?

Los buscadores, o motores de búsqueda, son herramientas que permiten realizar consultas y recuperar información contenida en la Web.
Hoy día estas aplicaciones se han convertido en la principal herramienta para navegar por Internet, ya que facilitan el acceso a la información que estamos buscando a través de los enlaces que nos muestran como resultado.

Funciones de un motor de búsqueda

Acceder a sitios web, localizar y descargar documentos.
Extraer el contenido textual (y multimedia) de los documentos descargados.
Analizar e indexar el contenido de los documentos para construir los índices del motor.
Realizar el análisis de enlaces de cada página y otorgar alguna medida de popularidad.
Permitir la formulación de consultas mediante palabras clave.
Facilitar el acceso a los resultados de una consulta ordenándolos conforme a unos criterios de relevancia.

Principales buscadores generalistas

Ask.com ( http://es.ask.com/ )

Los metabuscadores

Son herramientas para la búsqueda de recursos web que utilizan los índices de varios buscadores para satisfacer las consultas de sus usuarios.
Idea principal: recoger los mejores resultados que ofrecen diferentes buscadores para una consulta.
Justificación: constatación de que la coincidencia en los primeros resultados de los principales buscadores está por debajo del 20%.

Ventajas

Evitar que los usuarios realicen su consulta en varios buscadores
Obtener los mejores resultados de diversos buscadores

Inconvenientes

¿Son de calidad los buscadores que utiliza el metabuscador?

Tradicionales:
Metacrawler (http://www.metacrawler.com/)
dogpile (http://www.dogpile.com/)
De agrupamiento:
Yippy (http://www.yippy.com/)
Visuales:
Carrot (http://search.carrot2.org/stable/search

Principales buscadores especializados

Contenidos I

Parte I: Fundamentos en buscadores

Parte II: Buscadores con usos académicos

Inputs

La tipología de los sitios web indizados por los buscadores académicos comprende:
Universidades (dominio .edu)
Centros de investigación (NASA, RAND, etc.)
Gobierno (sitios web relacionados con la ciencia, tecnología, etc.)
Editores de libros y revistas
Colecciones de bibliotecas
Repositorios digitales (e-prints, e-books, etc.)

Outputs

T1: Páginas web (html) y documentos de toda clase (word, ppt, etc.) publicados en sitios de instituciones académicas o científicas (p.e., sitios del tipo .edu).
T2: Artículos de publicaciones científicas, ya se trate de publicaciones abiertas o de publicaciones de pago.
T3: Trabajos académicos, tales como tesis doctorales o tesis de licenciatura
T4: Documentos depositados en repositorios científicos
T5: Patentes
T6: Libros, es decir, monografías, por acuerdos con editoriales comerciales o bien a través de acuerdos con bibliotecas

Google Scholar (I)scholar.google.com

Contexto
Google
Amplia tipología de documentos (sin patentes)
Mayor número de documentos, pero sin información precisa
Acceso a libros completos (acuerdos con bibliotecas)
Características especiales
Análisis de citas
Opciones de ranking y navegación

Scirus (I)www.scirus.com

Contexto
Editorial Elsevier, parte de Reed-Elsevier
ScienceDirect
Scopus
Creado en el 2001
Amplia tipología de documentos (sin libros y referencias)
450 millones de documentos a inicios del 2009
Características especiales
Opciones de búsqueda