Meno chiacchiere, più fatti! Una marea di nuovi dati estratti dal testo di Wikipedia

Comments Off on Meno chiacchiere, più fatti! Una marea di nuovi dati estratti dal testo di Wikipedia
Share

Vi annunciamo con malcelato orgoglio la pubblicazione di nuovi dati estratti direttamente dal testo di Wikipedia

Il progetto di Google Summer of Code 2015 “Fact Extraction from Wikipedia Text” ha dato i suoi frutti.
Il mentore Marco e lo studente Emilio hanno lavorato sodo per tutta l’estate.
Risultato: il computer ora è capace di leggere il linguaggio degli umani!

Ma per quale motivo? Beh, il testo è di fondamentale importanza, vista la quantità di informazioni che può veicolare. E una banca di conoscenza come DBpedia ne trarrebbe immenso giovamento se si estrapolassero dati strutturati dal testo.

Marco ed Emilio hanno creato un estrattore di fatti, in grado di comprendere il senso di una frase tramite tecniche di processamento della lingua naturale (NLP).

Ecco dunque a voi una sfilza di nuovi fatti estratti dagli articoli della Wikipedia italiana sui calciatori:

Tecnica supervisionata Triple Scarica
Tutti i fatti 213479 nt.gz
Fatti ad alta confidenza 110102 nt.gz
Punteggi di confidenza 43893 nt.gz
Tecnica non supervisionata Triple Scarica
Tutti i fatti 216451 nt.gz
Fatti ad alta confidenza 118895 nt.gz
Punteggi di confidenza 40489 nt.gz

I dataset sono inoltre caricati sullo SPARQL endpoint ufficiale, così potete interrogare direttamente la banca di conoscenza.
Ognuno appartiene a un grafo diverso: ricordatevi di usare il costrutto FROM nelle vostre query, seguito dall’URI del dataset che volete esplorare:

http://fact.extraction.org/supervised
http://fact.extraction.org/supervised/confident
http://fact.extraction.org/supervised/scores
http://fact.extraction.org/unsupervised
http://fact.extraction.org/unsupervised/confident
http://fact.extraction.org/unsupervised/scores

Ecco una query per darvi un’idea:

“Tutti i calciatori che hanno partecipato ad una competizione e quando”

PREFIX dbo: <http://dbpedia.org/ontology/>
PREFIX fact: <http://dbpedia.org/fact-extraction/>

SELECT ?player ?competition ?when
FROM <http://fact.extraction.org/unsupervised>
WHERE
{
    ?player dbo:careerStation ?activity .
    ?activity fact:competition ?competition ;
              fact:time ?when .
}

I più coraggiosi possono dare un occhio al codice del progetto.

Comments are closed.