Motors de cerca
Els motors de cerca són eines que permeten realitzar consultes i recuperar informació continguda en el web. Avui dia aquestes aplicacions s'han convertit en la principal eina per navegar per Internet, ja que faciliten l'accés a la informació que estem buscant a través dels enllaços que ens mostren com a resultat.
Funcions
1. Accedir a llocs web, localitzar i descarregar documents.2. Extreure el contingut textual (i multimèdia) dels documents descarregats.3. Analitzar i indexar el contingut dels documents per construir els índexs del motor.4. Realitzar l'anàlisi d'enllaços de cada pàgina i atorgar alguna mesura de popularitat.5. Permetre la formulació de consultes mitjançant paraules clau.6. Facilitar l'accés als resultats d'una consulta ordenant-los segons uns criteris de rellevància
Components
Rastrejador o spider
Un spider o un crawler (rastrejador) és un programa que explora el Web de manera sistemàtica amb dos objectius principals: 1. Interactuar amb els servidors de llocs web per descarregar pàgines web o altres documents 2. Obtenir noves adreces (URL) per afegir a la seva llista d'enllaços pendents de revisar. Les expressions crawler, spider i robot (en aquest context) són equivalents.
Sistema de recuperació d'informació
- Índexs directes- Índexs indirectes Característiques- Google elimina totes les paraules sense significat per elles mateixes- Agafa una paraula i busca en quants documents apareix- Emparellament entre el terme usuari i la indexació- S’ha de tenir en compte les paraules que s’utilitzen a l’hora d’escriure per a la seva posterior recuperació
Interfície
Formularis de consulta
Els motors de cerca s'interroguen utilitzant paraules clau. Normalment presenten dues opcions de cerca:1. Cerca simple2. Cerca avançada: - Cerca booleana - Cerca per camps - Filtres - Mineria de dades
Pàgina de resultats
- Resultados pagats vs. Resultados no pagats: enllaços patrocinats- Presenta la llista de documents organitzats en un rànquing. Ofereix les següents informacions: *Títol de la pàgina (o del document). *El tipus del document (quan no és HTML). *Unes línies de descripció del contingut del document. *URL de la pàgina. *Seccions principals del lloc (Sitemap) [només de vegades].i les següents opcions: *Filtres: imatges, notícies, vídeos, etc. * Navegació seqüencial entre els resultats o anant a una pàgina de resultats concreta (fins a la pàgina 90 més o menys). *En caché, Similars, Compartir. *Traduir aquesta pàgina. *Articles relacionats. etc
Software de rellevància
La seva funció és l'ordenació dels resultats, és a dir, la construcció del rànquing de resultats en funció d'uns criteris de rellevància. Alguns d'ells són:1. Enllaços: enllaços d'entrada i URL.2. Contingut/Propietats de la pàgina: freqüència / ubicació / format de les paraules clau, etc.3. Resultats pagats i Resultats no pagats.
Tipus de motors
Generalistes
Existeixen centenars de cercadors que competeixen entre si per atreure els usuaris. No obstant això, només quatre concentren la majoria de les cerques.
Yahoo!
Bing
Ask
Metacercadors
- Són eines per a la cerca de recursos web que utilitzen els índexs de diversos cercadors per satisfer les consultes dels seus usuaris.- La seva idea principal és recollir els millors resultats que ofereixen diferents cercadors per a una consulta.- Justificació: constatació que la coincidència en els primers resultats dels principals cercadors està per sota del 20%.Avantatges- Evitar que els usuaris realitzin la seva consulta en diversos cercadors- Obtenir els millors resultats de diversos cercadorsInconvenients- Debat: són de qualitat els cercadors que utilitza el metabuscador?
Tradicionals
Dogpile
D'agrupament
Yippy
Visuals
Carrot
Especialitzats
Els cercadors generalistes constitueixen avui la millor opció davant cerques senzilles i fàcilment formulables. No obstant això, aquestes eines ofereixen resultats poc satisfactoris quan tractem de trobar informació molt especialitzada.Un cercador especialitzat (CE) és aquell que limita el seu àmbit de cerca a un domini concret, amb l'objectiu de proporcionar als seus usuaris accés als continguts de qualitat que hi ha al web sobre la seva àrea d'especialitzacióAvantatges1. La seva capacitat per buscar en pàgines que no estan indexades pels cercadors generalistes: els motors de cerca especialitzats són capaços d'indexar els continguts de la seva especialització fins i tot quan aquests estan situats en l'anomenat web invisible.2. Major funcionalitat i potencial de cerca: per exemple mitjançant l'ús d'interfícies adaptades al domini específic que cobreixen..Inconvenients1. Un gran desavantatge d'aquests sistemes és la necessitat d'acudir a un cercador o un altre en funció de la temàtica que sigui del nostre interès, la qual cosa dissuadeix normalment els usuaris d'utilitzar aquest tipus d'eines.
Acadèmics
Són cercadors que només indexen llocs web vinculats amb el món acadèmic.Inputs: fonts d'informacióLa tipologia dels llocs web indexats pels cercadors acadèmics comprèn:- Universitats (domini .edu)- Centres de recerca (NASA, RAND, etc.)- Govern (llocs web relacionats amb la ciència, tecnologia, etc.)- Editors de llibres i revistes- Col·leccionis de biblioteques- Repositoris digitals (e-prints, e-books, etc.)Output: tipus de documents recuperatsT1: Pàgines web (html) i documents de tot tipus (word, ppt, etc.) publicats en llocs d'institucions acadèmiques o científiques (p.i., llocs del tipus .edu). T2: Articles de publicacions científiques, tant publicacions obertes com publicacions de pagament.T3: Treballs acadèmics, com tesis doctorals o tesis de llicenciaturaT4: Documents dipositats en repositoris científics T5: PatentsT6: Llibres, és a dir, monografies, per acords amb editorials comercials o bé a través d'acords amb biblioteques
Google Scholar
Context- Google- Àmplia tipologia de documents (sense patents)- Major nombre de documents, però sense informació precisa- Accés a llibres complets (acords amb biblioteques)Característiques especials- Anàlisis de cites- Opcions de rànquing i navegació
Science Research
Context- Desenvolupe de Deep Web Technologies- Utilitza la cerca federada (és a dir, és un metabuscador)Característiques especials:- Acudeix a quasi 400 fonts: col·leccions d'associacions, repositoris, rditorials i revistes científiques i motors de cerca especialitzats- Redundància en els resultats obtinguts
aLlibres
Context:- Fracàs dels e-books al començament del mil·lenni.- Les editorials incorporen llavors entre els seus productes els llibres electrònics (principalment acadèmics).- Desenvolupament de plataformes per a l'accés als continguts digitals (Biblioteques universitàries, etc.): NetLibrary, Safari Books online, Ebrary Discover i Amazon.com- La solució més destacada, però, és Google cerca de llibres El present/futur:- Amazon Kindle- Sony Reader Digital Book- Apple iPad- Google ebookstore
Google Llibres
NetLibrary
Safari Books Online
Ebrary Discover
Amazon
Informes
- La informació de caràcter econòmic o empresarial constitueix avui un dels factors crítics de qualsevol institució.- El producte més elaborat que podem obtenir dins d'aquest tipus d'informacions són els informes i els estudis de mercat.- A diferència d'altres recursos, aquest tipus d'informació normalment només pot ser accedida amb previ pagament.
ESADE Knowledge
A Espanya és probablement el recurs més important per a la cerca d'informació sectorial i empresarial.
aICEX
Institut Expañol de Comerç Exterior: elabora i difon informació sobre l'oferta de productes espanyols i sobre mercats
Blogs
Google Blogs
Technorati
Semàntics
Wolfram Alpha
Sigma
Bibliografia
R. Steele. Techniques for Specialized Search Engines. 2001
Codina, Lluís; Abadal, Ernest; Rovira, Cristòfol. “Búsqueda federada en el ecosistema de la e-ciencia: el caso Science Research”. El profesional de la información, 2010.
Web
El web és un sistema hipertext que funciona sobre Internet, permet la consulta de documents o pàgines web i la navegació a través d'aquestes.
Web invisible
El web invisible està constituït per totes aquelles pàgines que s'escapen dels índexs dels motors de cerca generalistes. Formen part d'aquesta web, per exemple, les pàgines generades dinàmicament i aquelles pàgines estàtiques que romanen aïllades de la resta de la web (per absència d'enllaços o profunditat en el lloc web). El web invisible és 500 vegades més gran que el web visible.
Web 2.0
El web 2.0 es refereix a les plataformes, aplicacions i eines caracteritzades per la seva dimensió social i comunicativa. Són bon exemple els blogs, xarxes socials, fòrums, wikis, etc.
Web 3.0
El web 3.0 és un terme que s'utilitza per descriure l'evolució de l'ús i la interacció a la xarxa a través de diferents camins. Freqüentment és utilitzat pel mercat per promocionar les millores respecte a la Web 2.0. Abans s'equiparava aquest concepte al de web semàntic.
Web semàntic
El web semàntic és l'evolució tecnològica del web actual cap a un nou web que persegueix la comprensió dels seus continguts per les màquines.