Retrieval
Metadata
trefwoorden/ thesaurustermen
samenvatting van inhoud
aanduidingen van 1 of meer categorieën uit taxonomie of classificatie
meest kenmerkende begrippen en gewichtsfactoren
alle documenten met "dezelfde fingerprint" komen bij elkaar
hiervoor fingerprint van document1.statistische methode (TD*IDF)2.kennisgebaseerde meth.3.linguistische meth.(TD*IDF)
andere karakteristieken, bv. kwalificatie, mood detection of niveau van doelgroep
aan tekst zelf ontleende karakteristieke woorden of begrippen
woordenlijsten, namen: personen of producten,organisaties of plaatsen
geautomatiseerde ontsluiting:eerst verrijken encategoriseren vandocumenten mbv metadata.
free-text retrieval
hulpmiddelen freetext-retrievaldus: relevantie-ordeningen iteratief proces van verfijning
6.
feedback gebruiker: More like this...
5.
inperking door statistische analyse
4.
clusteren van zoekresultaten
statistische analyse
gedefinieerde categorieën
3.
relevantie-ordening
veel hyperlinks?
waar staat het woord in de tekst, hoevaak staat het er, welke volgorde etc.
2.
gebruik van semantisch netwerk
1.
splitsen van samengestelde woorden
fuzzy
trunceren / wordstemming
verbeteren met controled vocabularymaar is duur en niet flexibel
syntactische relaties leggen tussen begrippen
relaties leggen tussen begrippen
zoekingangen gelijk gewicht geven
terminologie eenduidig en gestandaardiseerd
slechte precisie
veel woorden niet relevant
Boolean AND wil niet zeggen dat inhoudelijke relatie klopt
andere, niet bedoelde context
homoniemen
slechte vangst
term-armoede v catalogus
weinig tekst digitaal beschikbaar
specifiekere woorden of juist impliciete aanduidingen
synoniemen
andere spelling
andere taal
andere woordvormen