Retrieval

free-text retrieval

slechte vangst

andere woordvormen

andere taal

andere spelling

synoniemen

specifiekere woorden of juist impliciete aanduidingen

weinig tekst digitaal beschikbaar

term-armoede v catalogus

slechte precisie

homoniemen

andere, niet bedoelde context

Boolean AND wil niet zeggen dat inhoudelijke relatie klopt

veel woorden niet relevant

verbeteren met controled vocabularymaar is duur en niet flexibel

terminologie eenduidig en gestandaardiseerd

zoekingangen gelijk gewicht geven

relaties leggen tussen begrippen

syntactische relaties leggen tussen begrippen

hulpmiddelen freetext-retrievaldus: relevantie-ordeningen iteratief proces van verfijning

1.

trunceren / wordstemming

fuzzy

splitsen van samengestelde woorden

2.

gebruik van semantisch netwerk

3.

relevantie-ordening

waar staat het woord in de tekst, hoevaak staat het er, welke volgorde etc.

veel hyperlinks?

4.

clusteren van zoekresultaten

gedefinieerde categorieën

statistische analyse

5.

inperking door statistische analyse

6.

feedback gebruiker: More like this...

geautomatiseerde ontsluiting:eerst verrijken encategoriseren vandocumenten mbv metadata.

Metadata

aan tekst zelf ontleende karakteristieke woorden of begrippen

woordenlijsten, namen: personen of producten,organisaties of plaatsen

andere karakteristieken, bv. kwalificatie, mood detection of niveau van doelgroep

aanduidingen van 1 of meer categorieën uit taxonomie of classificatie

hiervoor fingerprint van document1.statistische methode (TD*IDF)2.kennisgebaseerde meth.3.linguistische meth.(TD*IDF)

alle documenten met "dezelfde fingerprint" komen bij elkaar

meest kenmerkende begrippen en gewichtsfactoren

samenvatting van inhoud

trefwoorden/ thesaurustermen