类别 全部 - resultados - búsqueda - información - palabras

作者:Mireia Rom 11 年以前

272

Motors de cerca

Los motores de búsqueda son herramientas esenciales en la navegación web moderna, permitiendo a los usuarios realizar consultas y recuperar información de manera eficiente. Estos motores ofrecen una interfaz que presenta los resultados en un formato organizado y jerarquizado, distinguiendo entre resultados pagados y no pagados.

Motors de cerca

Web

El web és un sistema hipertext que funciona sobre Internet, permet la consulta de documents o pàgines web i la navegació a través d'aquestes.

Web semàntic

El web semàntic és l'evolució tecnològica del web actual cap a un nou web que persegueix la comprensió dels seus continguts per les màquines.

Web 3.0

El web 3.0 és un terme que s'utilitza per descriure l'evolució de l'ús i la interacció a la xarxa a través de diferents camins. Freqüentment és utilitzat pel mercat per promocionar les millores respecte a la Web 2.0. Abans s'equiparava aquest concepte al de web semàntic.

Web 2.0

El web 2.0 es refereix a les plataformes, aplicacions i eines caracteritzades per la seva dimensió social i comunicativa. Són bon exemple els blogs, xarxes socials, fòrums, wikis, etc.

Web invisible

El web invisible està constituït per totes aquelles pàgines que s'escapen dels índexs dels motors de cerca generalistes. Formen part d'aquesta web, per exemple, les pàgines generades dinàmicament i aquelles pàgines estàtiques que romanen aïllades de la resta de la web (per absència d'enllaços o profunditat en el lloc web). El web invisible és 500 vegades més gran que el web visible.

Bibliografia

Codina, Lluís; Abadal, Ernest; Rovira, Cristòfol. “Búsqueda federada en el ecosistema de la e-ciencia: el caso Science Research”. El profesional de la información, 2010.

R. Steele. Techniques for Specialized Search Engines. 2001

Motors de cerca

Els motors de cerca són eines que permeten realitzar consultes i recuperar informació continguda en el web.

Avui dia aquestes aplicacions s'han convertit en la principal eina per navegar per Internet, ja que faciliten l'accés a la informació que estem buscant a través dels enllaços que ens mostren com a resultat.

Tipus de motors

Semàntics
Sigma
Wolfram Alpha
Especialitzats

Els cercadors generalistes constitueixen avui la millor opció davant cerques senzilles i fàcilment formulables. No obstant això, aquestes eines ofereixen resultats poc satisfactoris quan tractem de trobar informació molt especialitzada.

Un cercador especialitzat (CE) és aquell que limita el seu àmbit de cerca a un domini concret, amb l'objectiu de proporcionar als seus usuaris accés als continguts de qualitat que hi ha al web sobre la seva àrea d'especialització

Avantatges

1. La seva capacitat per buscar en pàgines que no estan indexades pels cercadors generalistes: els motors de cerca especialitzats són capaços d'indexar els continguts de la seva especialització fins i tot quan aquests estan situats en l'anomenat web invisible.

2. Major funcionalitat i potencial de cerca: per exemple mitjançant l'ús d'interfícies adaptades al domini específic que cobreixen..

Inconvenients

1. Un gran desavantatge d'aquests sistemes és la necessitat d'acudir a un cercador o un altre en funció de la temàtica que sigui del nostre interès, la qual cosa dissuadeix normalment els usuaris d'utilitzar aquest tipus d'eines.

Blogs

Technorati

Google Blogs

Informes

- La informació de caràcter econòmic o empresarial constitueix avui un dels factors crítics de qualsevol institució.

- El producte més elaborat que podem obtenir dins d'aquest tipus d'informacions són els informes i els estudis de mercat.

- A diferència d'altres recursos, aquest tipus d'informació normalment només pot ser accedida amb previ pagament.

ICEX

Institut Expañol de Comerç Exterior: elabora i difon informació sobre l'oferta de productes espanyols i sobre mercats

ESADE Knowledge

A Espanya és probablement el recurs més important per a la cerca d'informació sectorial i empresarial.

Llibres

Context:

- Fracàs dels e-books al començament del mil·lenni.

- Les editorials incorporen llavors entre els seus productes els llibres electrònics (principalment acadèmics).

- Desenvolupament de plataformes per a l'accés als continguts digitals (Biblioteques universitàries, etc.): NetLibrary, Safari Books online, Ebrary Discover i Amazon.com

- La solució més destacada, però, és Google cerca de llibres

El present/futur:

- Amazon Kindle

- Sony Reader Digital Book

- Apple iPad

- Google ebookstore

Amazon

Ebrary Discover

Safari Books Online

NetLibrary

Google Llibres

Acadèmics

Són cercadors que només indexen llocs web vinculats amb el món acadèmic.

Inputs: fonts d'informació

La tipologia dels llocs web indexats pels cercadors acadèmics comprèn:

- Universitats (domini .edu)

- Centres de recerca (NASA, RAND, etc.)

- Govern (llocs web relacionats amb la ciència, tecnologia, etc.)

- Editors de llibres i revistes

- Col·leccionis de biblioteques

- Repositoris digitals (e-prints, e-books, etc.)

Output: tipus de documents recuperats

T1: Pàgines web (html) i documents de tot tipus (word, ppt, etc.) publicats en llocs d'institucions acadèmiques o científiques (p.i., llocs del tipus .edu).

T2: Articles de publicacions científiques, tant publicacions obertes com publicacions de pagament.

T3: Treballs acadèmics, com tesis doctorals o tesis de llicenciatura

T4: Documents dipositats en repositoris científics

T5: Patents

T6: Llibres, és a dir, monografies, per acords amb editorials comercials o bé a través d'acords amb biblioteques

Science Research

Context

- Desenvolupe de Deep Web Technologies

- Utilitza la cerca federada (és a dir, és un metabuscador)

Característiques especials:

- Acudeix a quasi 400 fonts: col·leccions d'associacions, repositoris, rditorials i revistes científiques i motors de cerca especialitzats

- Redundància en els resultats obtinguts

Google Scholar

Context

- Google

- Àmplia tipologia de documents (sense patents)

- Major nombre de documents, però sense informació precisa

- Accés a llibres complets (acords amb biblioteques)

Característiques especials

- Anàlisis de cites

- Opcions de rànquing i navegació

Metacercadors

- Són eines per a la cerca de recursos web que utilitzen els índexs de diversos cercadors per satisfer les consultes dels seus usuaris.

- La seva idea principal és recollir els millors resultats que ofereixen diferents cercadors per a una consulta.

- Justificació: constatació que la coincidència en els primers resultats dels principals cercadors està per sota del 20%.

Avantatges

- Evitar que els usuaris realitzin la seva consulta en diversos cercadors

- Obtenir els millors resultats de diversos cercadors

Inconvenients

- Debat: són de qualitat els cercadors que utilitza el metabuscador?

Visuals

Carrot

D'agrupament

Yippy

Tradicionals

Dogpile

Generalistes

Existeixen centenars de cercadors que competeixen entre si per atreure els usuaris. No obstant això, només quatre concentren la majoria de les cerques.

Ask
Bing
Yahoo!
Google

Components

Software de rellevància

La seva funció és l'ordenació dels resultats, és a dir, la construcció del rànquing de resultats en funció d'uns criteris de rellevància. Alguns d'ells són:

1. Enllaços: enllaços d'entrada i URL.

2. Contingut/Propietats de la pàgina: freqüència / ubicació / format de les paraules clau, etc.

3. Resultats pagats i Resultats no pagats.

Interfície

Pàgina de resultats

- Resultados pagats vs. Resultados no pagats: enllaços patrocinats

- Presenta la llista de documents organitzats en un rànquing. Ofereix les següents informacions:

*Títol de la pàgina (o del document).

*El tipus del document (quan no és HTML).

*Unes línies de descripció del contingut del document.

*URL de la pàgina.

*Seccions principals del lloc (Sitemap) [només de vegades].

i les següents opcions:

*Filtres: imatges, notícies, vídeos, etc.

* Navegació seqüencial entre els resultats o anant a una pàgina de resultats concreta (fins a la pàgina 90 més o menys).

*En caché, Similars, Compartir.

*Traduir aquesta pàgina.

*Articles relacionats.

etc

Formularis de consulta

Els motors de cerca s'interroguen utilitzant paraules clau.

Normalment presenten dues opcions de cerca:

1. Cerca simple

2. Cerca avançada:

- Cerca booleana

- Cerca per camps

- Filtres

- Mineria de dades

Sistema de recuperació d'informació

- Índexs directes

- Índexs indirectes

Característiques

- Google elimina totes les paraules sense significat per elles mateixes

- Agafa una paraula i busca en quants documents apareix

- Emparellament entre el terme usuari i la indexació

- S’ha de tenir en compte les paraules que s’utilitzen a l’hora d’escriure per a la seva posterior recuperació

Rastrejador o spider

Un spider o un crawler (rastrejador) és un programa que explora el Web de manera sistemàtica amb dos objectius principals:

1. Interactuar amb els servidors de llocs web per descarregar pàgines web o altres documents

2. Obtenir noves adreces (URL) per afegir a la seva llista d'enllaços pendents de revisar.

Les expressions crawler, spider i robot (en aquest context) són equivalents.

Funcions

1. Accedir a llocs web, localitzar i descarregar documents.

2. Extreure el contingut textual (i multimèdia) dels documents descarregats.

3. Analitzar i indexar el contingut dels documents per construir els índexs del motor.

4. Realitzar l'anàlisi d'enllaços de cada pàgina i atorgar alguna mesura de popularitat.

5. Permetre la formulació de consultes mitjançant paraules clau.

6. Facilitar l'accés als resultats d'una consulta ordenant-los segons uns criteris de rellevància