Data Mining
C.d.L.: Computer Science and Engineering & Digital Transformation Management
Semester: I (October - December)
Teacher: |
Prof. Matteo Golfarelli
Room 4140 (Floor 2) - Cesena Campus - Via dell'Università 50, Cesena
Tel: +39 0547 338 862
E-mail: nome.cognome@unibo.it
|
Teacher: (Text mining module) |
Prof. Gianluca Moro
Dipartimento di Informatica - Scienza e Ingegneria - Via dell'Università, 50 - Cesena
Tel: +39 0547 339208
E-mail: nome.cognome@unibo.it
|
Con il termine Data Mining si intende un insieme di tecniche e strumenti usati per esplorare grandi database, con lo scopo di individuare/estrarre informazioni/conoscenze significative, in modo da renderle disponibili ai processi decisionali. Questo corso vuole fornire i fondamenti della disciplina, focalizzando lo studio sulle più importanti tecniche di Data Mining attualmente impiegate (estrazione automatica di pattern frequenti, associazioni, sequenze e anomalie, modelli predittivi, ecc.). A partire dall'.A.A. 2013-2014 un modulo del corso sarà completamente dedicato alle tecniche di Text Mining che specializzano le suddette tecniche al dominio dei testi non strutturati. Il settore sta avendo grande sviluppo a causa della crescita del valore strategico dell'informazione, della crescente concorrenza e dell'accumulo di sempre più grandi volumi di dati all'interno di basi di dati strutturate e non strutturate. Il corso sarà composto da lezioni teoriche seguite da esercitazioni in laboratorio dove, utilizzando strumenti ad-hoc, saranno messe in pratica le tecniche studiate nella teoria.
Programma Materiale didattico
Modalità d'esame Date e Orari Prove d'esame e Risultati
Finalità del corso
Il corso si propone di fornire conoscenze approfondite sulle tecniche di Data Mining e Text Mining, nonchè sulle modalità di gestione di un progetto in questo settore.
Nell'ambito del corso saranno svolte anche esercitazioni sul sistema per il Data Mining Weka al fine di fornire allo studente quelle
competenze teorico-pratiche necessarie a operare autonomamente in questo settore.
Top Finalità Materiale didattico
Modalità d'esame Date e Orari Prove d'esame e Risultati
Programma del corso
- Introduzione al Data Mining
- I possibili ambiti applicativi
- Il processo di scoperta della conoscenza: progettare un processo di data mining
- Comprendere e preparare i dati
- Caratteristiche dei diversi tipi di dato
- Esplorazione statistica dei dati
- Qualità dei dati
- Preprocessing: selezione e creazione degli attributi
- Misurare la similarità e dissimilarità tra i dati
- Le tecniche di data mining
- Classificazione
- Tecniche di base I: gli alberi decisionali
- Tecniche di base II: Insiemi di regole e Tecniche instance based
- I classificatori Bayesiani
- Regole associative
- Clustering
- Individuazione di anomalie (Outlier)
- Le tecniche di text mining
- Information retrieval per il text mining
- Categorizzazione di testo
- Opinion mining
- Interpretazione e validazione dei risultati
- Esercitazioni in laboratorio con il software Weka
Top Finalità Programma
Date e Orari Prove d'esame e Risultati
Material
- Dispense del docente in italiano (fino A.A. 20-21) - Modulo Data Mining
- Teacher slile (A.A. 22-23) - Data Mining Module
- Dispense a cura del docente - Modulo Text Mining
- Pang-Ning Tan, Michael Steinbach, Vipin Kumar Introduction to Data Mining. Pearson International, 2006. (Libro di testo modulo Data Mining)
- Christopher Manning, Hinrich Schutze, Prabhakar Raghavan. Introduction to Information Retrieval. Cambridge University Press, 2008. (Libro di testo modulo Text Mining)
- Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, IInd Ed. Morgan Kaufmann, 2005.
- Charu Aggarwal and ChengXiang Zhai Editors. Mining Text Data. Springer, 2012.
- Manuali Weka
- Repository di data set
Top Finalità Programma Materiale didattico
Date e Orari Prove d'esame e Risultati
Modalità d'esame
L'esame consta di un elaborato individuale e di una prova orale. L'elaborato, da concordare con il docente, potrà appartene a una delle seguenti categorie:
- Studio e valutazione pratica di un algoritmo di DM l'obiettivo è quello di dimostrare la capacità di estendere le proprie competenze ad algoritmi non studiati a lezione. Si dovrà quindi scegliere uno degli algoritmo di Weka non studiato a lezione e quindi studiarlo capendone i principi, i parametri e l'applicabilità. Si dovrà quindi utilizzare un dataset tra quelli studiato a lezione oppure uno di quelli disponibile sul sito UCI e svolgere con esso un'analisi significativa.
- Analisi di un dataset l'obiettivo è quello di dimostrare la capacità effettuare un'analisi completa su un dominio applicativo. Scelto uno dei dataset disponibili sul sito UCI si dovrà svolgere un'analisi che utilizzi almeno 3 degli algoritmi studiati a lezione o comunque disponibili su Weka/R.
Tutte le attività di analisi dovranno essere svolte seguendo la metodologia CRISP-DM. Il lavoro dovrà essere documentato mediante una relazione di almeno 5 pagine che sarà discussa durante l'orale.
Regole per gli esami su prenotazione:
- La prova dei due moduli (text mining e data mining) potrà essere svolta in giorni diversi purchè tra le due prove non passino più di 14gg (ricordiamoci che il corso è uno solo e va preparato integralmente)
- Lo studente comunica con circa 7-10 giorni di anticipo ai singoli docenti la data a partire dalla quale avrà completato la preparazione. Il docente comunica l'orario e la data, posteriore a quella comunicata, in cui verrà sostenuto l'esame
- L'elaborato va stampato e rilegato anche in modo semplice
- Il secondo appello deve essere sostenuto almeno 14gg dopo il primo tentativo. Non si può provare l'esame più di due volte nella sessione.
Top Finalità Programma Materiale didattico
Modalità d'esame Prove d'esame e Risultati
Date e Orari
- Inizio Lezioni:
- Lezioni: Teams
- Laboratorio:
- Ricevimento Prof. Matteo Golfarelli(studio 4140): Ven 9.00-10.00. Prof. Gianluca Moro: Mar 16:00-18:00
- Lista di distribuzione matteo.golfarelli.dm
Top Finalità Programma Materiale didattico
Modalità d'esame Date e Orari