作者:Mireia Rom 11 年以前
272
更多类似内容
El web és un sistema hipertext que funciona sobre Internet, permet la consulta de documents o pàgines web i la navegació a través d'aquestes.
El web semàntic és l'evolució tecnològica del web actual cap a un nou web que persegueix la comprensió dels seus continguts per les màquines.
El web 3.0 és un terme que s'utilitza per descriure l'evolució de l'ús i la interacció a la xarxa a través de diferents camins. Freqüentment és utilitzat pel mercat per promocionar les millores respecte a la Web 2.0. Abans s'equiparava aquest concepte al de web semàntic.
El web 2.0 es refereix a les plataformes, aplicacions i eines caracteritzades per la seva dimensió social i comunicativa. Són bon exemple els blogs, xarxes socials, fòrums, wikis, etc.
El web invisible està constituït per totes aquelles pàgines que s'escapen dels índexs dels motors de cerca generalistes. Formen part d'aquesta web, per exemple, les pàgines generades dinàmicament i aquelles pàgines estàtiques que romanen aïllades de la resta de la web (per absència d'enllaços o profunditat en el lloc web). El web invisible és 500 vegades més gran que el web visible.
Els motors de cerca són eines que permeten realitzar consultes i recuperar informació continguda en el web.
Avui dia aquestes aplicacions s'han convertit en la principal eina per navegar per Internet, ja que faciliten l'accés a la informació que estem buscant a través dels enllaços que ens mostren com a resultat.
Els cercadors generalistes constitueixen avui la millor opció davant cerques senzilles i fàcilment formulables. No obstant això, aquestes eines ofereixen resultats poc satisfactoris quan tractem de trobar informació molt especialitzada.
Un cercador especialitzat (CE) és aquell que limita el seu àmbit de cerca a un domini concret, amb l'objectiu de proporcionar als seus usuaris accés als continguts de qualitat que hi ha al web sobre la seva àrea d'especialització
Avantatges
1. La seva capacitat per buscar en pàgines que no estan indexades pels cercadors generalistes: els motors de cerca especialitzats són capaços d'indexar els continguts de la seva especialització fins i tot quan aquests estan situats en l'anomenat web invisible.
2. Major funcionalitat i potencial de cerca: per exemple mitjançant l'ús d'interfícies adaptades al domini específic que cobreixen..
Inconvenients
1. Un gran desavantatge d'aquests sistemes és la necessitat d'acudir a un cercador o un altre en funció de la temàtica que sigui del nostre interès, la qual cosa dissuadeix normalment els usuaris d'utilitzar aquest tipus d'eines.
Technorati
Google Blogs
- La informació de caràcter econòmic o empresarial constitueix avui un dels factors crítics de qualsevol institució.
- El producte més elaborat que podem obtenir dins d'aquest tipus d'informacions són els informes i els estudis de mercat.
- A diferència d'altres recursos, aquest tipus d'informació normalment només pot ser accedida amb previ pagament.
ICEX
Institut Expañol de Comerç Exterior: elabora i difon informació sobre l'oferta de productes espanyols i sobre mercats
ESADE Knowledge
A Espanya és probablement el recurs més important per a la cerca d'informació sectorial i empresarial.
Context:
- Fracàs dels e-books al començament del mil·lenni.
- Les editorials incorporen llavors entre els seus productes els llibres electrònics (principalment acadèmics).
- Desenvolupament de plataformes per a l'accés als continguts digitals (Biblioteques universitàries, etc.): NetLibrary, Safari Books online, Ebrary Discover i Amazon.com
- La solució més destacada, però, és Google cerca de llibres
El present/futur:
- Amazon Kindle
- Sony Reader Digital Book
- Apple iPad
- Google ebookstore
Amazon
Ebrary Discover
Safari Books Online
NetLibrary
Google Llibres
Són cercadors que només indexen llocs web vinculats amb el món acadèmic.
Inputs: fonts d'informació
La tipologia dels llocs web indexats pels cercadors acadèmics comprèn:
- Universitats (domini .edu)
- Centres de recerca (NASA, RAND, etc.)
- Govern (llocs web relacionats amb la ciència, tecnologia, etc.)
- Editors de llibres i revistes
- Col·leccionis de biblioteques
- Repositoris digitals (e-prints, e-books, etc.)
Output: tipus de documents recuperats
T1: Pàgines web (html) i documents de tot tipus (word, ppt, etc.) publicats en llocs d'institucions acadèmiques o científiques (p.i., llocs del tipus .edu).
T2: Articles de publicacions científiques, tant publicacions obertes com publicacions de pagament.
T3: Treballs acadèmics, com tesis doctorals o tesis de llicenciatura
T4: Documents dipositats en repositoris científics
T5: Patents
T6: Llibres, és a dir, monografies, per acords amb editorials comercials o bé a través d'acords amb biblioteques
Science Research
Context
- Desenvolupe de Deep Web Technologies
- Utilitza la cerca federada (és a dir, és un metabuscador)
Característiques especials:
- Acudeix a quasi 400 fonts: col·leccions d'associacions, repositoris, rditorials i revistes científiques i motors de cerca especialitzats
- Redundància en els resultats obtinguts
Google Scholar
Context
- Àmplia tipologia de documents (sense patents)
- Major nombre de documents, però sense informació precisa
- Accés a llibres complets (acords amb biblioteques)
Característiques especials
- Anàlisis de cites
- Opcions de rànquing i navegació
- Són eines per a la cerca de recursos web que utilitzen els índexs de diversos cercadors per satisfer les consultes dels seus usuaris.
- La seva idea principal és recollir els millors resultats que ofereixen diferents cercadors per a una consulta.
- Justificació: constatació que la coincidència en els primers resultats dels principals cercadors està per sota del 20%.
Avantatges
- Evitar que els usuaris realitzin la seva consulta en diversos cercadors
- Obtenir els millors resultats de diversos cercadors
Inconvenients
- Debat: són de qualitat els cercadors que utilitza el metabuscador?
Carrot
Yippy
Dogpile
Existeixen centenars de cercadors que competeixen entre si per atreure els usuaris. No obstant això, només quatre concentren la majoria de les cerques.
La seva funció és l'ordenació dels resultats, és a dir, la construcció del rànquing de resultats en funció d'uns criteris de rellevància. Alguns d'ells són:
1. Enllaços: enllaços d'entrada i URL.
2. Contingut/Propietats de la pàgina: freqüència / ubicació / format de les paraules clau, etc.
3. Resultats pagats i Resultats no pagats.
- Resultados pagats vs. Resultados no pagats: enllaços patrocinats
- Presenta la llista de documents organitzats en un rànquing. Ofereix les següents informacions:
*Títol de la pàgina (o del document).
*El tipus del document (quan no és HTML).
*Unes línies de descripció del contingut del document.
*URL de la pàgina.
*Seccions principals del lloc (Sitemap) [només de vegades].
i les següents opcions:
*Filtres: imatges, notícies, vídeos, etc.
* Navegació seqüencial entre els resultats o anant a una pàgina de resultats concreta (fins a la pàgina 90 més o menys).
*En caché, Similars, Compartir.
*Traduir aquesta pàgina.
*Articles relacionats.
etc
Els motors de cerca s'interroguen utilitzant paraules clau.
Normalment presenten dues opcions de cerca:
1. Cerca simple
2. Cerca avançada:
- Cerca booleana
- Cerca per camps
- Filtres
- Mineria de dades
- Índexs directes
- Índexs indirectes
Característiques
- Google elimina totes les paraules sense significat per elles mateixes
- Agafa una paraula i busca en quants documents apareix
- Emparellament entre el terme usuari i la indexació
- S’ha de tenir en compte les paraules que s’utilitzen a l’hora d’escriure per a la seva posterior recuperació
Un spider o un crawler (rastrejador) és un programa que explora el Web de manera sistemàtica amb dos objectius principals:
1. Interactuar amb els servidors de llocs web per descarregar pàgines web o altres documents
2. Obtenir noves adreces (URL) per afegir a la seva llista d'enllaços pendents de revisar.
Les expressions crawler, spider i robot (en aquest context) són equivalents.
1. Accedir a llocs web, localitzar i descarregar documents.
2. Extreure el contingut textual (i multimèdia) dels documents descarregats.
3. Analitzar i indexar el contingut dels documents per construir els índexs del motor.
4. Realitzar l'anàlisi d'enllaços de cada pàgina i atorgar alguna mesura de popularitat.
5. Permetre la formulació de consultes mitjançant paraules clau.
6. Facilitar l'accés als resultats d'una consulta ordenant-los segons uns criteris de rellevància