Tipologie di vocabolari controllati
Soggettari
Nel mondo dell'Information Retrieval i soggettari sono collezioni di soggetti, cioè di termini che colgono l'essenza del documento a cui fanno riferimento, e sono molto utilizzati per i record bibliografici, perché anche attraverso essi si svolge il lavoro di raccolta, organizzazione e controllo dei documenti di una biblioteca.
I soggetti sono conosciuti anche come parole-chiave (key words) o descrittori, e vengono inseriti in sistemi informatici di ricerca o in cataloghi al fine di trovare il documento che l'utente desidera. Sono molto conosciuti anche nel web, dove vengono chiamati tag, e possono essere utilizzati anche da utenti inesperti.
Questi termini possono essere costituiti da una singola, da una frase o da un termine alfanumerico. Vengono selezionati dai documenti attraverso un lavoro manuale o un sistema di indicizzazione automatica o ancora attraverso metodi più complessi di estrazione di parole-chiave, e possono provenire da un vocabolario controllato o essere addirittura assegnati liberamente.
Una volta estratti, i soggetti vengono immagazzinati in un indice di ricerca. Dall'estrazione di questi termini ne vengono sempre ignorati alcuni, come gli articoli e la congiunzioni, molto frequenti in una lingua ma nello stesso tempo senza significato rilevante per l'argomento del documento.
Il motore di ricerca più famoso, Google, aveva inizialmente rimosso queste parole, dette stop words, ma le ha recentemente reinserite per rendere di nuovo possibili alcuni tipi di ricerca.