类别 全部

作者:Sarah Barclay 14 年以前

243

Retrieval

Bij de geautomatiseerde ontsluiting van documenten speelt metadata een cruciale rol. Documenten worden eerst verrijkt met trefwoorden en thesaurustermen, wat helpt bij de categorisatie binnen een taxonomie of classificatiesysteem.

Retrieval

Retrieval

Metadata

trefwoorden/ thesaurustermen
samenvatting van inhoud
aanduidingen van 1 of meer categorieën uit taxonomie of classificatie
meest kenmerkende begrippen en gewichtsfactoren
alle documenten met "dezelfde fingerprint" komen bij elkaar
hiervoor fingerprint van document1.statistische methode (TD*IDF)2.kennisgebaseerde meth.3.linguistische meth.(TD*IDF)
andere karakteristieken, bv. kwalificatie, mood detection of niveau van doelgroep
aan tekst zelf ontleende karakteristieke woorden of begrippen
woordenlijsten, namen: personen of producten,organisaties of plaatsen

geautomatiseerde ontsluiting:eerst verrijken encategoriseren vandocumenten mbv metadata.

free-text retrieval

hulpmiddelen freetext-retrievaldus: relevantie-ordeningen iteratief proces van verfijning
6.

feedback gebruiker: More like this...

5.

inperking door statistische analyse

4.

clusteren van zoekresultaten

statistische analyse

gedefinieerde categorieën

3.

relevantie-ordening

veel hyperlinks?

waar staat het woord in de tekst, hoevaak staat het er, welke volgorde etc.

2.

gebruik van semantisch netwerk

1.

splitsen van samengestelde woorden

fuzzy

trunceren / wordstemming

verbeteren met controled vocabularymaar is duur en niet flexibel
syntactische relaties leggen tussen begrippen
relaties leggen tussen begrippen
zoekingangen gelijk gewicht geven
terminologie eenduidig en gestandaardiseerd
slechte precisie
veel woorden niet relevant
Boolean AND wil niet zeggen dat inhoudelijke relatie klopt
andere, niet bedoelde context
homoniemen
slechte vangst
term-armoede v catalogus
weinig tekst digitaal beschikbaar
specifiekere woorden of juist impliciete aanduidingen
synoniemen
andere spelling
andere taal
andere woordvormen