Retrieval
free-text retrieval
slechte vangst
andere woordvormen
andere taal
andere spelling
synoniemen
specifiekere woorden of juist impliciete aanduidingen
weinig tekst digitaal beschikbaar
term-armoede v catalogus
slechte precisie
homoniemen
andere, niet bedoelde context
Boolean AND wil niet zeggen dat inhoudelijke relatie klopt
veel woorden niet relevant
verbeteren met controled vocabularymaar is duur en niet flexibel
terminologie eenduidig en gestandaardiseerd
zoekingangen gelijk gewicht geven
relaties leggen tussen begrippen
syntactische relaties leggen tussen begrippen
hulpmiddelen freetext-retrievaldus: relevantie-ordeningen iteratief proces van verfijning
1.
trunceren / wordstemming
fuzzy
splitsen van samengestelde woorden
2.
gebruik van semantisch netwerk
3.
relevantie-ordening
waar staat het woord in de tekst, hoevaak staat het er, welke volgorde etc.
veel hyperlinks?
4.
clusteren van zoekresultaten
gedefinieerde categorieën
statistische analyse
5.
inperking door statistische analyse
6.
feedback gebruiker: More like this...
geautomatiseerde ontsluiting:eerst verrijken encategoriseren vandocumenten mbv metadata.
Metadata
aan tekst zelf ontleende karakteristieke woorden of begrippen
woordenlijsten, namen: personen of producten,organisaties of plaatsen
andere karakteristieken, bv. kwalificatie, mood detection of niveau van doelgroep
aanduidingen van 1 of meer categorieën uit taxonomie of classificatie
hiervoor fingerprint van document1.statistische methode (TD*IDF)2.kennisgebaseerde meth.3.linguistische meth.(TD*IDF)
alle documenten met "dezelfde fingerprint" komen bij elkaar
meest kenmerkende begrippen en gewichtsfactoren
samenvatting van inhoud
trefwoorden/ thesaurustermen