Site Network:

ICT4Law Regione Piemonte

Comdata S.p.A.

Gli obiettivi
Il progetto propone lo studio di fattibilità e prototipazione di un sistema integrato e automatizzato di opinion monitoring.
L’ obiettivo è raccogliere dal WEB ed analizzare le opinioni sull’offerta, l’accoglienza e la capacità ricettiva turistica in Piemonte.

Il modello
La sperimentazione propone il modello iterativo di Ricerca, Analisi e Valutazione dei risultati.
Ricerca: le opinioni vengono raccolte dal WEB e strutturate.
Analisi: i testi delle opinioni vengono inviati ad un servizio di elaborazione linguistica per l’analisi dei contenuti e la classificazione dei risultati.
Valutazione: i risultati dell’analisi sono monitorati e archiviati in un apposito sistema di BI.

Le attività
Il WEB è stato identificato come la fonte più significativa per la raccolta delle opinioni perché un’opinione espressa sul WEB (forum, blogs, social media....) è un’ opinione volontaria, quindi più incisiva di un opinione fornita in maniera tradizionale mediante questionario.
La storia delle opinioni in rete è potenzialmente sempre disponibile e costituisce una miniera di informazioni, che stimola il confronto degli utenti anche a distanza di tempo.

La collaborazione Comdata-Celi ha permesso l’applicazione del modello Ricerca-Analisi-Valutazione mediante l’utilizzo di sistemi di Spidering-SemanticAnaylis-Monitoring.

Nella prima fase di sperimentazione ci si è focalizzati sull’ individuazione dei componenti di riferimento.
A valle di ricerche condivise i risultati hanno evidenziato:

  • il sistema di spidering più appropriato: WebHarvest (Open Source Web Data Extraction tool);
  • i siti WEB più significativi: www.tripadvisor.it , www.ilgiramondo.net;
  • la piattaforma di SemanticAnaylis più indicata: Linguagrid (in lingua italiana) con analisi del sentimento espresso (positivo, neutro, negativo);
  • il vocabolario di classificazione. Utile per identificare e classificare i vocaboli più ricorrenti;
  • lo schema XML per la condivisione strutturata dei dati raccolti;
  • il sistema di monitoring più adatto: QlikView (Businness Discovery platfrom for self-service BI).

Con la prima fase di sperimentazione sono state raccolte più di 3.000 opinioni distribuite su temi inerenti:arte, cultura, religione, enogastronomia, ristorazione, musica, cinema, spettacolo, pernottamenti, sport, benessere, tempo libero, trasporti.

Complessivamente, a fronte di analisi, le opinioni hanno fornito la seguente ripartizione del sentimento espresso: positivo 79%, neutro 7%, negativo 14%.

Nel tentativo di aggiungere nuovi siti alla sperimentazione (es. viamichelin, trivago, venere, …), si è appurato che molti di questi siti recuperano le opinioni da 2 siti di riferimento: tripadvisor e booking. Si è quindi deciso di aggiungere, al sistema di spidering, nuovi script utili alla raccolta delle opinioni dal sito www.booking.com, tralasciando per il momento le recensioni di ‘ilgiramondo’.

Con il supporto del Dipartimento di Studi per l'impresa e il territorio - Università del Piemonte Orientale, abbiamo aggiunto i seguenti miglioramenti:

  • Si è arricchita la raccolta dati con nuovi attributi strutturati: il tipo di viaggio (single, famiglia, vacanza, lavoro,…), i punteggi.
  • Si è estesa la sperimentazione all’utilizzo del servizio di analisi linguistica in lingua francese, aggiungendo alla sperimentazione i dati del segmento francese dei siti ‘tripadvisor’ e ‘booking’.
  • Si è sviluppata l’ applicazione per il monitoraggio. L’applicazione fornisce l’interfaccia utente per la navigazione e la valutazione dei dati raccolti. I dati sono consultabili sia in forma numerica che analitica.
    I sentimenti espressi sono monitorati secondo la loro distribuzione geografica (provincia, comune) e tematica.
  • Si è sviluppata la piattaforma per l’automazione della filiera Spidering-SemanticAnalysis-Monitoring. La piattaforma consente la gestione di alcuni parametri di ricerca (ad esempio il nome di una catena alberghiera, l’area geografica di riferimento, …) e di schedulazioni degli aggiornamenti. Con questa piattaforma, periodicamente, secondo schedulazione, vengono raccolti i dati dal WEB ed inviati al sistema di analisi linguistica. I risultati ottenuti sono resi disponibili all’ applicazione di monitoraggio.

Con la fase di indagine più recente, e l’ ausilio del sistema di monitoraggio, si è appurato che la raccolta dei dati dai forum produce più scarti (meno opinioni significative sul totale dei testi analizzati) rispetto alla raccolta dati dalle pagine di recensioni (più precise e circoscritte).
Si è quindi deciso di spostare la sperimentazione su questa seconda fonte, focalizzando l’attenzione su una struttura specifica : gli agriturismo.
Per uniformare le diversità dei siti WEB è stata predisposta una procedura che riconduce le recensioni ai seguenti temi: posizione,pulizia,qualità/prezzo,ristorazione, qualità del sonno, reception, servizi.

I risultati
Dai diversi siti WEB sono state raccolte circa 4000 opinioni inerenti più di 140 agriturismo in Piemonte.
Alcune considerazioni, in sintesi, rispetto alle recensioni del 2011:

  • nei mesi più freddi sono numerose le recensioni sul tema ristorazione;
  • pochi viaggiatori (4%) sono attenti alla ‘qualità del sonno’, ma sono positivi nelle valutazioni;
  • il rapporto positivo/negativo è più alto nelle recensioni di viaggiatori francesi (11/1) rispetto a quelli degli italiani (9/1).

Prossimi passi

  • Raffrontare eventi legati al territorio (fiere, manifestazioni,…) con la quantità ed il contenuto delle recensioni.
  • Monitorare, mediante sistema di alerting dal WEB, la quantità ed il contenuto di pubblicazione di articoli sul tema “Turismo in Piemonte” e confrontarli con i risultati dell’ opinion monitoring.