...

Big Data Analysis: dalla teoria alla pratica

by giulio-lazzaro

on

Report

Download: 0

Comment: 0

551

views

Comments

Description

Presentazione Social Media Web & Smart Apps
Università Ca' Foscari A.A. 2013/2014
Download Big Data Analysis: dalla teoria alla pratica

Transcript

  • 1. Big Data Analysis: dalla teoria alla pratica Presentazione Social Media Web & Smart Apps Studente Giulio Lazzaro mat. 835232 Prof. Gianluigi Cogo A.A. 2013/2014 06/06/2014 Università Ca’ Foscari Venezia
  • 2. Big data, cosa sono Raccolte di dati con volumi estremamente elevati, raggruppati per genere in dataset. Caratteristiche:  Volume  Velocità  Varietà  Veracità  Valore Immagine: http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data
  • 3. Big Data Analysis Ricavare informazioni (utili e di valore) dai Big Data. I dati presi singolarmente possono non aver valore, mentre insiemi di dati possono avere informazioni aggiuntive nascoste (valore aggiunto).
  • 4. Perché analizzarli Sono la nuova frontiera dell’informazione. Sfruttati in IT, comunicazioni, medicina, trasporti, pubbliche amministrazioni, istruzione, catasto ecc. Le aziende possono massimizzare i loro profitti, ottimizzare i loro processi e offrire nuovi servizi: business analytics.
  • 5. Dati più comuni: machine data Dati generati da macchine • Log • Coordinate GPS • File di testo, configurazione ecc.
  • 6. Dati più comuni: database Database: Relazionali e non solo, sono utilizzati in ogni campo.
  • 7. Gli strumenti per l’analisi • Splunk: indicizza, processa e analizza i dati. Tramite dashboard mostra statistiche e risultati • Hadoop: programma scalabile di analisi big data, sfrutta l’algoritmo MapReduce di Google • Fluentd e Logstash: raccolta di log (centralizzazione) • Molti altri strumenti specializzati • Algoritmi e abilità (data scientist).
  • 8. Vantaggi offerti Semplicità e astrazione. Le dashboard contengono i risultati che ci interessano. Splunk Dashboard - Immagine: http://www.linux- magazine.com/Online/Features/Unified-Event-Monitoring-with-Splunk
  • 9. Computazione Il modello Mapreduce massimizza le prestazioni dividendo dati e lavoro da eseguire su più nodi.
  • 10. I tipi di analisi • Descriptive analytics: semplice «lettura» dei dati • Diagnostic analytics: ricavare ulteriori informazioni dai dati in possesso tramite l’analisi • Predictive analytics: creare modelli dai dati raccolti, in modo da poterli poi usare per prevedere l’andamento futuro • Prescriptive analytics: usare i modelli di dati ricavati per analizzare e ottimizzare processi ripetitivi.
  • 11. Buone norme Confirmation bias Di solito si cerca di dare ragione alle proprie ipotesi invece di confutarle. Si dovrebbe essere in grado di confutare le proprie teorie e se necessario cambiare strada. Immagine: http://online.wsj.com/
  • 12. Buone norme Irrilevanza e distrazione Bisogna concentrarsi nei dati veramente utili senza includere dati non inerenti che potrebbero fornire risultati fuorvianti. Es: refresh di un browser o nuova richiesta
  • 13. Buone norme Causa e correlazione Eventi che si manifestano assieme non sono necessariamente correlati.
  • 14. Buone norme Statistical significance Non bisogna limitarsi a piccole porzioni di dati, la statistica è sui grandi numeri. Es: prendere una porzione di dati totalmente diversa dal resto conduce ad un’analisi errata
  • 15. Buone norme Varietà dei dati da analizzare A volte i dati da analizzare per poter fare un’analisi accurata sono di diverso tipo. Es: limitarsi ai commenti negativi escludendo le mail di lamentela.
  • 16. Riferimenti • http://hadoop.apache.org/ • http://it.splunk.com/ • http://db-engines.com/en/ranking • http://logstash.net/ • http://fluentd.org/ • http://en.wikipedia.org/wiki/MapReduce
  • Fly UP