Cos'è DSSbuilder?
Questo tool è stato realizzato con lo scopo di fornire uno strumento di facile ed immediato utilizzo a coloro i quali sono coinvolti nel settore della semantica distribuzionale.
La semantica è quella branca della linguistica che che si occupa dello studio del significato delle parole. Alla base della semantica distribuzionale risiede l'ipotesi che parole che ricorrono in contesti simili tendono a possedere simili significati. L’idea generale è quindi quella che esiste una correlazione tra la similarità distribuzionale e la similarità semantica tra due o più espressioni linguistiche.
Attraverso l'impiego del sito è possibile, previo il caricamento di un corpus di testo e di un elenco di parole target, costruire lo spazio semantico distribuzionale generato dalle risorse caricate.
Lo strumento fa uso di alcuni script scritti nel linguaggio di programmazione PERL per:
- estrarre le co-occorrenze oggetto dell'indagine;
- calcolare la Local Mutual Information delle co-occorrenze estratte per attribuirvi il peso statistico appropriato;
- generare una matrice parola-contesto;
- misurare la distanza semantica delle co-occorrenze attraverso il calcolo del coseno dell'angolo formato dai vettori riga e colonna della matrice.
Guida all'utilizzo
Per procedere all'utilizzo dell'applicazione è necessario caricare i file del corpus e delle parole target attraverso i rispettivi form, inserire il valore desiderato della finestra di contesto per indicare il numero di co-occorrenze selezionate e cliccare sul pulsante start.
Una barra animata indicherà che lo strumento è in esecuzione. La durata dipende dalla grandezza del corpus e della finestra di contesto.
Il file generato conterrà coppie di parole seguite dal un valore indicante il grado di similarità semantica. Sarà possibile scaricare il file generato cliccando sul pulsante download che comparirà al termine dell'esecuzione degli script oppure utilizzare l'apposito form di ricerca per conoscere le cinque parole col più alto grado di similarità semantica rispetto alla parola ricercata.
Indicazioni sul formato dei file richiesti
Il formato del file corpus dovrà presentare un token per riga e ogni frase dovrà essere preceduta da un tag <s> che servirà come delimitatore.
La natura del file pivot è strettamente legata al tipo di indagine da svolgere ma il formato che questo file dovrà possedere è dello stesso tipo del file corpus fatta eccezione per il delimitatore di frase <s> che in questo caso non deve essere presente.
Il valore n della finestra di contesto seleziona n-1 co-occorrenze precedenti e successive ad ogni parola target.
Esempi:
file corpus
<s>
1
.
<s>
qualsiasi
descrizione
di
servizio
tutto
comprendere
fornire
file pivot
descrizione
servizio
comprendere
finestra di contesto = 3
descrizione qualsiasi
descrizione di
descrizione servizio
servizio descrizione
servizio di
servizio tutto
servizio comprendere
comprendere servizio
comprendere tutto
comprendere fornire