Site Network:

ICT4Law Regione Piemonte

Relazione Scientifica CELI s.r.l.

Attività svolte
L'attività ha seguito due linee principali:

  • Sviluppo servizi di TAL
    L'attività di messa a disposizione di servizi di analisi semantica per l'analisi del testo legale ha subito una forte accellerazione nel corso di quest'anno. Il raggiunto accordo con l'università di Kyoto ha permesso di mettere in linea il primo nodo europeo di Linguagrid, cui i partner di ICT4LAW possono accedere al fine di profittare dei fari servizi di analisi semantica. Tra questi citiamo soprattutto analisi delle dipendenze, clustering di documenti e classificazione automatica.
    Oltre alla messa a disposizione dell'infrastruttura CELI ha operato attivamente per la messa a disposizione di servizi di analisi, primariamente orientati all'italiano, ma, grazie a partnership internazionali, anche capaci di prendere in considerazione altre lingue, con una prevalenza del francese
  • Analisi dei Sentimenti Tale attività è stata svolta in stretta collaborazione con Comdata e DIPSIT (UNIPMN). L'attività è volta ad identificare le opinioni espresse da viaggiatori e turisti in relazione a luoghi e stabilimenti turistici. Il componente di analisi linguistica è in grado di eseguire il riconoscimento di tre categorie semantiche principali: i luoghi, la tipologia di entità sottoposta a giudizio ed il giudizio stesso. Tale riconoscimento viene effettuato grazie alla scrittura manuale di regole semantiche per l'italiano, scrittura che è durata per l'intero anno vista la necessità di affinare continuamente i risultati del parsing. Infine, nell'ultima parte dell'anno è emersa la necessità (per un eventuale sfruttamento commerciale a fine progetto) di estendere il sistema ad altre lingue:francese, inglese, tedesco. Per quanto riguarda il francese i partners hanno messo a disposizione un modulo di analisi comparabile a quello italiano. Tale modulo non essendo disponibile per l'inglese ed il tedesco si sono allora sperimentate techniche di apprendimento automatico. La fase di valutazione della precisione di tali tecniche basate su un corpus manualmente annotato è ancora in fase di valutazione.

Risultati ottenuti

  • Installazione completa di Linguagrid su www.linguagrid.org
  • Messa a disposizione di più di 18 differenti servizi di analisi semantica
  • Creazione di un "playground" per il testing manuale dei servizi
  • Perfezionamento del modulo di sentiment analysis per l'italiano e sua taratura sul dominio turistico.
  • Inizio della sperimentazione di strategie di apprendimento automatico basate su corpus manualmente annotati per inglese e tedesco.

Attività future
Le due attività menzionate nells sezione Attività svolte continueranno per tutto il 2012 con i seguenti obiettivi:

  • Sviluppo servizi di TAL: si prevede l'aggiunta di almeno una decina di servizi, tra cui Named Entity Extraction per italiano e inglese (il francese è già presente), estrazione automatica di concetti per italiano e francese, e wikification per italiano, francese e inglese.
  • Analisi dei Sentimenti: La parametrizzazione per l'inglese ed il tedesco durerà per l'intero anno a venire. In parallelo saranno studiate strategie di erogazione del servizio, nonché, in collaborazione con comdata, la stesura di un business plan per lo sviluppo commerciale.

Pubblicazioni ed interventi

  1. Bosca A., L. Dini, Automatic Gazetteer Generation from Wikipedia , Advanced Language Technologies for Digital Libraries, Lecture Notes in Computer Science, 2011, Volume 6699/2011, pag 61-71
  2. Dini L., Kouylekov M., Testa M., Trevisan M.,Two Level approach to SRL , Proceedings of the Evalita 2011.
  3. Partecipazione a Giornate del Turismo 2011, Alessio Bosca,Opinion monitoring per il turismo
  4. Participazione a META-FORUM 2011 (Budapest, 27/28 giugno) in qualità di espositori/demo