Epistemologia dei dati: cosa puoi davvero sapere
I limiti della conoscenza ottenibile dai dati e come distinguere ciò che sai da ciò che credi di sapere.
Cosa imparerai
- Comprendere il problema analitico e il contesto decisionale
- Applicare esempi, metriche e controlli a casi reali
Epistemologia dei dati: cosa puoi davvero sapere
Un numero arriva da log, sensori, pipeline e modelli di pulizia; in dashboard sembra oggettivo, ma porta con sé scelte di raccolta, definizione e trasformazione. Epistemologia dei dati: cosa puoi davvero sapere chiede di trattare il dato come evidenza costruita, non come accesso diretto alla realtà.
Una scena da cui partire
Leggi la lezione come controllo dei confini della conoscenza. Dire “i dati mostrano” è una responsabilità: devi sapere da dove vengono, che cosa escludono e quale grado di fiducia meritano.
- Contesto: Quale passaggio trasforma un evento reale in dato?
- Metodo: Quale perdita informativa avviene nella pipeline?
- Applicazione: Come qualificheresti una conclusione senza indebolirla inutilmente?
La piramide DIKW: Data, Information, Knowledge, Wisdom
| Livello | Definizione | Esempio | Può essere sbagliato? |
|---|---|---|---|
| Data | Osservazioni grezze, non interpretate | ”La riga 145782 della tabella ordini ha amount=47.50 e status=‘completed‘“ | Sì, per errore di misurazione |
| Information | Dati strutturati e contestualizzati | ”Il revenue di ieri è stato 1.2M” | Sì, se l’aggregazione è sbagliata |
| Knowledge | Pattern, relazioni e modelli derivati dall’informazione | ”Quando il prezzo sale del 10%, il volume ordini cala dell’8% (elasticità = -0.8)“ | Sì, se il pattern è spurio o non generalizzabile |
| Wisdom | Capacità di applicare la conoscenza in nuovi contesti con giudizio | ”In questo mercato, con questa stagionalità, un aumento di prezzo ora sarebbe rischioso” | Sì, se il contesto è cambiato in modi non visibili |
La maggior parte del lavoro analitico si ferma al livello Information (dashboard, report) o al massimo Knowledge (modelli, insight). La saggezza — sapere quando applicare la conoscenza e quando metterla in discussione — è il livello più raro e più prezioso. Ed è puramente epistemologico.
I tre limiti della conoscenza dai dati
1. Il problema del campione (induzione, again)
Ogni dataset è un campione. Anche se hai “tutti i dati” (es. tutte le transazioni della tua azienda), hai solo le transazioni della tua azienda, nel tuo periodo storico, con i tuoi clienti. Non hai un campione dell’universo di tutte le possibili transazioni. Ogni generalizzazione oltre il campione è un atto di fede induttivo. Hume docet.
2. Il problema della misurazione (cosa stai davvero misurando?)
Misurare il “cliente soddisfatto” non è come misurare la temperatura. Non esiste un termometro per la soddisfazione. Hai proxy: NPS, CSAT, tasso di rinnovo, ticket di supporto. Ogni proxy è una semplificazione. Misura qualcosa di correlato alla soddisfazione, non la soddisfazione stessa. Lo scarto tra il costrutto teorico e il proxy misurato è una fonte di errore epistemologico che la statistica non può correggere.
3. Il problema del contesto (non-stazionarietà)
I dati hanno una data di scadenza. Un modello costruito su dati 2019 potrebbe non valere nel 2020 (pandemia), nel 2022 (inflazione), nel 2024 (AI disruption). Il contesto cambia in modi che i dati passati non possono anticipare. La conoscenza estratta dai dati è localmente valida, non universalmente vera. Trattarla come universale è l’errore epistemologico più costoso in azienda.
Come convivere con l’incertezza epistemologica
-
Esplicita il dominio di validità: “Questo modello è stato allenato su dati 2022-2023, mercato italiano, clientela B2C. La sua validità oltre questo dominio non è testata.”
-
Distingue tra accuratezza e robustezza: un modello può essere accurato (funziona sui dati di test) ma non robusto (fallisce se la distribuzione dei dati cambia). Misura entrambe.
-
Aggiorna le credenze, non accumulare certezze: L’approccio bayesiano è epistemologicamente superiore perché riconosce che la conoscenza è provvisoria e aggiornabile. Non cerchi “la verità”, cerchi “la migliore scommessa aggiornata con gli ultimi dati”.
Riferimenti:
- Ackoff, R.L. (1989). “From Data to Wisdom.” Journal of Applied Systems Analysis, 16, pp. 3-9.
- Floridi, L. (2011). The Philosophy of Information. Oxford University Press.
- Hand, D.J. (2008). Statistics: A Very Short Introduction. Oxford University Press.
Controllo di qualità
Prima di usare “epistemologia dei dati: cosa puoi davvero sapere\ in una decisione, controlla sempre completezza, duplicati, timezone, definizioni cambiate e segmenti esclusi. Molte analisi apparentemente sofisticate falliscono perché il dato di partenza misura un comportamento diverso da quello che il team crede di osservare.
Interpretazione per segmenti
La media aggregata è solo il punto di partenza. Segmenta per canale, coorte, piano, paese, device e maturità dell’utente. Se due segmenti si muovono in direzioni opposte, la media non rappresenta nessuno dei due e può portare a una decisione sbagliata.
Decisione operativa
Ogni analisi deve terminare con una scelta possibile: continuare, fermare, iterare, investire, rimuovere o approfondire. Se “epistemologia dei dati: cosa puoi davvero sapere\ non cambia una decisione, probabilmente manca ancora il collegamento tra metrica e azione.
Metriche di verifica
Dopo l’intervento, definisci una metrica primaria e due guardrail. La metrica primaria misura il miglioramento atteso; le guardrail impediscono di ottenere quel miglioramento distruggendo retention, fiducia, qualità del dato o sostenibilità operativa.
Problema reale
Nel lavoro su fondamenti filosofici dell’analisi dati, Epistemologia dei dati: cosa puoi davvero sapere serve a risolvere un problema concreto: capire quando un dato sostiene davvero una decisione e quando invece nasconde assunzioni, bias, causalità fragile o una domanda formulata male. La domanda non è se il concetto sia interessante in astratto, ma quale decisione migliora quando lo applichi con dati affidabili e con una soglia di errore esplicita.
Questa lezione va studiata come uno strumento operativo: entro la fine devi saper Comprendere il problema analitico e il contesto decisionale; Applicare esempi, metriche e controlli a casi reali. Se non riesci a collegare il concetto a una scelta reale, la conoscenza resta decorativa e non diventa competenza.
Modello concettuale
flowchart LR
A["Osservazione"]
B["Assunzione"]
C["Modello"]
D["Evidenza"]
E["Decisione"]
A --> B
B --> C
C --> D
D --> E
Il modello mentale e sequenziale: prima si formula la domanda, poi si traduce in unità osservabili, quindi si valuta la qualità del dato e solo alla fine si decide. Saltare un passaggio produce analisi eleganti ma fragili.
| Passaggio | Domanda guida | Output atteso |
|---|---|---|
| Framing | Quale decisione deve cambiare? | Una scelta concreta, non una curiosità |
| Misura | Quale segnale rappresenta il fenomeno? | Metrica, fonte e granularità |
| Confronto | Rispetto a quale baseline interpreto il risultato? | Benchmark o controfattuale plausibile |
| Azione | Che cosa faccio se il segnale supera la soglia? | Decisione, owner e prossimo controllo |
Formalizzazione rigorosa
Formalizza Epistemologia dei dati: cosa puoi davvero sapere come una relazione tra quattro elementi: unità di analisi, segnale, baseline e decisione. Nel contesto di questa lezione l’unità principale e osservazione, ipotesi, variabile, meccanismo causale o criterio di evidenza. Il segnale da osservare deve essere collegato a forza dell evidenza, coerenza causale, robustezza delle assunzioni e costo dell errore decisionale, mentre la baseline deve essere scelta tra spiegazione alternativa, controfattuale, gruppo comparabile o scenario senza intervento.
Una formulazione robusta segue questa logica:
| Elemento | Definizione operativa per questa lezione |
|---|---|
| Unità | osservazione, ipotesi, variabile, meccanismo causale o criterio di evidenza |
| Segnale | forza dell evidenza, coerenza causale, robustezza delle assunzioni e costo dell errore decisionale |
| Baseline | spiegazione alternativa, controfattuale, gruppo comparabile o scenario senza intervento |
| Decisione | accettare, rifiutare o riformulare una spiegazione prima di usarla in un contesto aziendale |
| Rischio | Confondere correlazione, qualità del dato e causalità decisionale |
La regola pratica e semplice: una misura e utile solo se riduce l’incertezza su una decisione specifica. Se non cambia una scelta, e documentazione; se cambia una scelta senza controlli, e rischio.
Esempio o caso studio
Un comitato interpreta una crescita di retention come prova che una nuova iniziativa abbia funzionato. La lezione costringe a distinguere osservazione, spiegazione, assunzione e decisione prima di trasformare il dato in azione.
Applicando Epistemologia dei dati: cosa puoi davvero sapere, il team costruisce una lettura in tre colonne: cosa sappiamo, cosa assumiamo e quale decisione prendiamo. Questo formato impedisce di presentare un numero come se fosse una conclusione autosufficiente.
| Evidenza | Interpretazione prudente | Decisione conseguente |
|---|---|---|
| Segnale positivo ma non isolato | Il fenomeno esiste, ma la causa e ancora incerta | Cercare baseline o holdout |
| Segmento con risposta diversa | L’effetto medio nasconde eterogeneita | Analizzare coorti o sottogruppi |
| Costo operativo crescente | Il risultato va valutato sul margine | Applicare soglie economiche |
Lab / esercizio
Livello base
Prendi una decisione reale collegata a Epistemologia dei dati: cosa puoi davvero sapere e scrivi in cinque righe: obiettivo, metrica primaria, baseline, rischio principale e azione prevista. Non usare più di una metrica primaria.
Livello intermedio
Costruisci una tabella con almeno tre segmenti o scenari. Per ciascuno indica segnale, possibile spiegazione alternativa e controllo necessario prima di decidere.
Livello research-grade
Disegna un piano di validazione: ipotesi, dati necessari, criterio di esclusione, soglia decisionale e controllo post-decisione. Specifica anche che cosa ti farebbe cambiare idea.
Dataset e materiali consigliati
Usa case study decisionali, metriche prodotto, risultati di esperimenti, DAG semplici, report analitici e serie storiche simulate. Se non hai dati reali, crea un dataset sintetico con 200-500 righe e almeno una colonna temporale, una colonna segmento, una metrica di outcome e una variabile di esposizione.
Errore tipico da evitare
L’errore più frequente e trattare Epistemologia dei dati: cosa puoi davvero sapere come una definizione da ricordare invece che come un protocollo decisionale. In pratica succede quando si presenta una metrica senza baseline, un grafico senza ipotesi, o una raccomandazione senza costo dell’errore.
Un controllo utile è chiedersi: “se questo risultato fosse falso o instabile, quale decisione sbaglierei?”. Se la risposta non è chiara, la lezione non è ancora stata applicata davvero.
Quiz o checkpoint
- Qual è la decisione concreta che questa lezione dovrebbe migliorare?
- Quale baseline rende interpretabile il risultato?
- Quale assunzione, se sbagliata, cambierebbe la conclusione?
- Quale controllo minimo useresti prima di presentare la raccomandazione?
Riepilogo operativo
Epistemologia dei dati: cosa puoi davvero sapere e una competenza utile quando collega concetto, dato e decisione. Studiala partendo da un problema reale, formalizza il segnale, cerca una baseline credibile, costruisci un esempio e chiudi con un controllo pratico. Categoria: Fondamenti. Difficoltà: advanced. Tempo stimato: 18 min.
Percorso collegato
Lezioni da leggere insieme
Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.