Tesi di Laurea e Tirocini

Per informazioni generali relative alla redazione di tesi, vedere qui.

Big Data e NoSql DBMS

Il laboratorio del gruppo di ricerca ha da poco installato un cluster Hadoop su cui realizzare progetti e tesi. Siamo alla ricerca di studenti e tesisti interessati ad approfondire queste tematiche.
  1. Crawling the web (tesi di progetto laurea magistrale/triennale, per informazioni contattare: Prof. Matteo Golfarelli). La tesi ha l'obiettivo di valutare le caratteristiche e le prestazioni di uno o più crawler web disponibili in rete. L'interesse principale è rivolto verso la soluzione Apache Nutch. Tra le domande a cui l'analisi dovrà rispondere sono: (1) Qual'è l'effettiva velocità di crawling raggiungibile sul cluster; (2) quale il livello di qualità nell'identificazione dei testi raccolti? L'obiettivo è anche quello di estendere il sistema di Social Intelligence già a disposizione con feature di crawling.
  2. HBase vs Hive (tesi di progetto laurea magistrale/triennale, per informazioni contattare: Prof. Matteo Golfarelli). Impala (distribuzione Cloudera) e Hive rappresentano due soluzioni alternative nello stack hadoop per effettuare interrogazioni con interfaccia SQL-Like. Obiettivo della tesi è quello di fare il porting di un progetto di Big Data su questi sistemi al fine di valutarne le caratteristiche nell'ambito della piattaforma Hadoop, studiare le modalità di design e valutarne le performance.
  3. Data Warehouse al tempo dei Big Data (tesi di progetto laurea magistrale/triennale, per informazioni contattare: Prof. Matteo Golfarelli). La tesi ha l'obiettivo di studiare come progettare un Data Warehouse su piattaforma Hadoop.

Business Intelligence e Data Warehousing

  1. Progettazione e sviluppo del Data Mart di Produzione di Amadori (laurea magistrale, in collaborazione con Amadori, per informazioni contattare: Prof. Matteo Golfarelli). Sviluppdel data mart per i processi di produzione in collaborazione con l'azienda Amadori di Cesena. Ulteriori dettagli in allegato.
  2. Sistema di Business Intelligence per il controllo delle performance di una organizzazione Retail (laurea magistrale, in collaborazione con Gruppo Sistema, per informazioni contattare: Prof. Stefano Rizzi). Sviluppo di un sistema di Web Analysis and Reporting, basato su tecnologie Microsoft ( Power BI, infrastruttura cloud Azure, applicativo Dynamics NAV, database SQL Server), applicato ad una organizzazione retail (catena di Gioiellerie) in espansione e operante su tutto il territorio nazionale. Attraverso questo sistema, l'azienda cliente ha come obiettivo l'analisi dei dati commerciali (costi e ricavi) e il controllo delle performance dei diversi punti vendita
  3. Foreign key discovery (tesi di progetto laurea magistrale, per informazioni contattare: Prof. Stefano Rizzi). Le foreign key (chiavi esterne) sono un vincolo di importanza fondamentale dei database relazionali. Poiché non sempre esse sono espliciamente dichiarate nei database reali, si pone il problema di scoprirle in modo automatico analizzando i dati esistenti. Questo problema è noto in letteratura come "inclusion dependency inference problem". Obiettivo della tesi è implementare in C# e testare l'algoritmo "Unary IND Inference", pubblicato nel 2008, e testarlo con particolare riferimento al reverse engineering di star schema.
  4. Ricerca di dipendenze funzionali e approssimate (tesi di ricerca laurea magistrale, per informazioni contattare: Prof. Stefano Rizzi). Le dipendenze funzionali (FD) hanno un ruolo fondamentale nella progettazione e analisi di database relazionali, e il problema di come inferire le FD presenti all'interno di una relazione è stato ripetutamente affrontato in letteratura. Obiettivo della tesi è analizzare i principali approcci al problema presenti in letteratura (per esempio TANE, FD-Mine, FastFDs, FUN) e valutare il più adatto a risolvere il sottoproblema di ricerca di FD unarie. Il contesto applicativo di riferimento è il reverse engineering di star schema.
  5. Meta-data driven ETL and Development Automation (tesi di progetto/ricerca laurea magistrale, per informazioni contattare: Prof. Stefano Rizzi). La tesi proposta ha come obiettivo la realizzazione di uno strumento per lo sviluppo di flussi ETL in maniera automatizzata partendo da un layer di metadati. Il progetto da sviluppare con tecnologia Microsoft .Net ha come scopi: definire un modello invariante rispetto alle tecnologie di ETL attualmente in commercio, una strategia di inferenza di esso a partire da strutture dati esistenti, e la creazione automatica di flussi ETL su alcune piattaforme di prova. La tesi è proposta da e sarà svolta in collaborazione con iConsulting di Bologna.
  6. Progettazione di un Data Warehouse con tecnologia colonnare (tesi di progetto laurea magistrale, per informazioni contattare: Prof. Matteo Golfarelli). Progettazione e sviluppo di un Data Warehouse in ambito agroalimentare finalizzato all'analisi delle vendite, alla contabilità, al resource planning ed al budget planning da realizzarsi con il columnar database TABULAR di Microsoft Analysys Servcies. La tesi è proposta da e sarà svolta presso ONIT Group di Cesena.

Data & Text Mining

  1. Analisi delle serie storiche in un dataset multidimensionale al fine di determinare comportamenti anomali (outlier) - In collaborazione con ONIT Group (tesi di progetto laurea magistrale, per informazioni contattare: Prof. Matteo Golfarelli). La ricerca degli outlier è finalizzata a:
    • Determinazione di assenza o scarsa presenza di informazioni (serie storiche non pervenute per errore)
    • Determinazione di scarsa qualità delle informazioni (serie storiche con dati errati)
    • Determinazione di stati di criticità (es. surriscaldamenti, consumi non previsti, .) al fine di prevenire malfunzionamenti a sistemi automatici
  • Analisi Testuale e Opinion Mining (tesi di progetto laurea magistrale, per informazioni contattare: Prof. Matteo Golfarelli). I sistemi di Social Media Monitoring e Social Intelligence sono oggi ampiamente utilizzati per analizzare il contenuto dei testi digitali raccolti sul web o da sistemi CRM. La tesi si propone di realizzare e testare una o più tecniche tecniche presenti in letteratura nei seguenti ambiti:
    1. - Topic and trend discovery: ricerca di nuovi argomenti di interesse e valutazione della loro relazione con altre tematiche
    2. - Document clustering: classificazione di documenti sulla base degli argomenti trattati

    Sistemi Informativi

    1. Diagnostica inefficienze e protipazione di soluzioni migliorative di un applicativo per l'ottimizzazione di impianti cogenerativi (tesi di progetto laurea magistrale, per informazioni contattare Prof. Matteo Golfarelli). La tesi è svolta in collaborazione con Optit di Cesena. L'applicativo oggetto della tesi è nato per gestire un numero limitato di impianti con alcune funzionalità di base e si è evoluto nel tempo per poter gestire un numero più elevato di impianti e dinamiche sempre più complesse. Questa evoluzione ha comportato il degrado delle prestazioni dell'architettura iniziale, evidenziando la necessità di una reingegnerizzazione. In tale ambito vorremmo effettuare uno studio diagnostico preliminare del Database e delle principali funzionalità di estrazione e salvataggio dati, per poterne evidenziare i limiti e successivamente elaborare un modello alternativo e la sua prototipazione.