Vai al contenuto principale
Epistemologia dei dati - immagine ufficiale della lezione su GinnyTech, creata da AD

Epistemologia dei dati: cosa puoi davvero sapere

I limiti della conoscenza ottenibile dai dati e come distinguere ciò che sai da ciò che credi di sapere.

AD
Creato da Andrii Dyshkantiuk
Lezione 206 / 216 Livello: Avanzato Durata: 18 min Prerequisiti: 1

Cosa imparerai

  • Comprendere il problema analitico e il contesto decisionale
  • Applicare esempi, metriche e controlli a casi reali

Epistemologia dei dati: cosa puoi davvero sapere

Un numero arriva da log, sensori, pipeline e modelli di pulizia; in dashboard sembra oggettivo, ma porta con sé scelte di raccolta, definizione e trasformazione. Epistemologia dei dati: cosa puoi davvero sapere chiede di trattare il dato come evidenza costruita, non come accesso diretto alla realtà.

Una scena da cui partire

Leggi la lezione come controllo dei confini della conoscenza. Dire “i dati mostrano” è una responsabilità: devi sapere da dove vengono, che cosa escludono e quale grado di fiducia meritano.

  • Contesto: Quale passaggio trasforma un evento reale in dato?
  • Metodo: Quale perdita informativa avviene nella pipeline?
  • Applicazione: Come qualificheresti una conclusione senza indebolirla inutilmente?

La piramide DIKW: Data, Information, Knowledge, Wisdom

LivelloDefinizioneEsempioPuò essere sbagliato?
DataOsservazioni grezze, non interpretate”La riga 145782 della tabella ordini ha amount=47.50 e status=‘completed‘“Sì, per errore di misurazione
InformationDati strutturati e contestualizzati”Il revenue di ieri è stato 1.2M”Sì, se l’aggregazione è sbagliata
KnowledgePattern, relazioni e modelli derivati dall’informazione”Quando il prezzo sale del 10%, il volume ordini cala dell’8% (elasticità = -0.8)“Sì, se il pattern è spurio o non generalizzabile
WisdomCapacità di applicare la conoscenza in nuovi contesti con giudizio”In questo mercato, con questa stagionalità, un aumento di prezzo ora sarebbe rischioso”Sì, se il contesto è cambiato in modi non visibili

La maggior parte del lavoro analitico si ferma al livello Information (dashboard, report) o al massimo Knowledge (modelli, insight). La saggezza — sapere quando applicare la conoscenza e quando metterla in discussione — è il livello più raro e più prezioso. Ed è puramente epistemologico.

I tre limiti della conoscenza dai dati

1. Il problema del campione (induzione, again)

Ogni dataset è un campione. Anche se hai “tutti i dati” (es. tutte le transazioni della tua azienda), hai solo le transazioni della tua azienda, nel tuo periodo storico, con i tuoi clienti. Non hai un campione dell’universo di tutte le possibili transazioni. Ogni generalizzazione oltre il campione è un atto di fede induttivo. Hume docet.

2. Il problema della misurazione (cosa stai davvero misurando?)

Misurare il “cliente soddisfatto” non è come misurare la temperatura. Non esiste un termometro per la soddisfazione. Hai proxy: NPS, CSAT, tasso di rinnovo, ticket di supporto. Ogni proxy è una semplificazione. Misura qualcosa di correlato alla soddisfazione, non la soddisfazione stessa. Lo scarto tra il costrutto teorico e il proxy misurato è una fonte di errore epistemologico che la statistica non può correggere.

3. Il problema del contesto (non-stazionarietà)

I dati hanno una data di scadenza. Un modello costruito su dati 2019 potrebbe non valere nel 2020 (pandemia), nel 2022 (inflazione), nel 2024 (AI disruption). Il contesto cambia in modi che i dati passati non possono anticipare. La conoscenza estratta dai dati è localmente valida, non universalmente vera. Trattarla come universale è l’errore epistemologico più costoso in azienda.

Come convivere con l’incertezza epistemologica

  1. Esplicita il dominio di validità: “Questo modello è stato allenato su dati 2022-2023, mercato italiano, clientela B2C. La sua validità oltre questo dominio non è testata.”

  2. Distingue tra accuratezza e robustezza: un modello può essere accurato (funziona sui dati di test) ma non robusto (fallisce se la distribuzione dei dati cambia). Misura entrambe.

  3. Aggiorna le credenze, non accumulare certezze: L’approccio bayesiano è epistemologicamente superiore perché riconosce che la conoscenza è provvisoria e aggiornabile. Non cerchi “la verità”, cerchi “la migliore scommessa aggiornata con gli ultimi dati”.


Riferimenti:

  • Ackoff, R.L. (1989). “From Data to Wisdom.” Journal of Applied Systems Analysis, 16, pp. 3-9.
  • Floridi, L. (2011). The Philosophy of Information. Oxford University Press.
  • Hand, D.J. (2008). Statistics: A Very Short Introduction. Oxford University Press.

Controllo di qualità

Prima di usare “epistemologia dei dati: cosa puoi davvero sapere\ in una decisione, controlla sempre completezza, duplicati, timezone, definizioni cambiate e segmenti esclusi. Molte analisi apparentemente sofisticate falliscono perché il dato di partenza misura un comportamento diverso da quello che il team crede di osservare.

Interpretazione per segmenti

La media aggregata è solo il punto di partenza. Segmenta per canale, coorte, piano, paese, device e maturità dell’utente. Se due segmenti si muovono in direzioni opposte, la media non rappresenta nessuno dei due e può portare a una decisione sbagliata.

Decisione operativa

Ogni analisi deve terminare con una scelta possibile: continuare, fermare, iterare, investire, rimuovere o approfondire. Se “epistemologia dei dati: cosa puoi davvero sapere\ non cambia una decisione, probabilmente manca ancora il collegamento tra metrica e azione.

Metriche di verifica

Dopo l’intervento, definisci una metrica primaria e due guardrail. La metrica primaria misura il miglioramento atteso; le guardrail impediscono di ottenere quel miglioramento distruggendo retention, fiducia, qualità del dato o sostenibilità operativa.

Problema reale

Nel lavoro su fondamenti filosofici dell’analisi dati, Epistemologia dei dati: cosa puoi davvero sapere serve a risolvere un problema concreto: capire quando un dato sostiene davvero una decisione e quando invece nasconde assunzioni, bias, causalità fragile o una domanda formulata male. La domanda non è se il concetto sia interessante in astratto, ma quale decisione migliora quando lo applichi con dati affidabili e con una soglia di errore esplicita.

Questa lezione va studiata come uno strumento operativo: entro la fine devi saper Comprendere il problema analitico e il contesto decisionale; Applicare esempi, metriche e controlli a casi reali. Se non riesci a collegare il concetto a una scelta reale, la conoscenza resta decorativa e non diventa competenza.

Modello concettuale

flowchart LR
    A["Osservazione"]
    B["Assunzione"]
    C["Modello"]
    D["Evidenza"]
    E["Decisione"]
    A --> B
    B --> C
    C --> D
    D --> E

Il modello mentale e sequenziale: prima si formula la domanda, poi si traduce in unità osservabili, quindi si valuta la qualità del dato e solo alla fine si decide. Saltare un passaggio produce analisi eleganti ma fragili.

PassaggioDomanda guidaOutput atteso
FramingQuale decisione deve cambiare?Una scelta concreta, non una curiosità
MisuraQuale segnale rappresenta il fenomeno?Metrica, fonte e granularità
ConfrontoRispetto a quale baseline interpreto il risultato?Benchmark o controfattuale plausibile
AzioneChe cosa faccio se il segnale supera la soglia?Decisione, owner e prossimo controllo

Formalizzazione rigorosa

Formalizza Epistemologia dei dati: cosa puoi davvero sapere come una relazione tra quattro elementi: unità di analisi, segnale, baseline e decisione. Nel contesto di questa lezione l’unità principale e osservazione, ipotesi, variabile, meccanismo causale o criterio di evidenza. Il segnale da osservare deve essere collegato a forza dell evidenza, coerenza causale, robustezza delle assunzioni e costo dell errore decisionale, mentre la baseline deve essere scelta tra spiegazione alternativa, controfattuale, gruppo comparabile o scenario senza intervento.

Una formulazione robusta segue questa logica:

ElementoDefinizione operativa per questa lezione
Unitàosservazione, ipotesi, variabile, meccanismo causale o criterio di evidenza
Segnaleforza dell evidenza, coerenza causale, robustezza delle assunzioni e costo dell errore decisionale
Baselinespiegazione alternativa, controfattuale, gruppo comparabile o scenario senza intervento
Decisioneaccettare, rifiutare o riformulare una spiegazione prima di usarla in un contesto aziendale
RischioConfondere correlazione, qualità del dato e causalità decisionale

La regola pratica e semplice: una misura e utile solo se riduce l’incertezza su una decisione specifica. Se non cambia una scelta, e documentazione; se cambia una scelta senza controlli, e rischio.

Esempio o caso studio

Un comitato interpreta una crescita di retention come prova che una nuova iniziativa abbia funzionato. La lezione costringe a distinguere osservazione, spiegazione, assunzione e decisione prima di trasformare il dato in azione.

Applicando Epistemologia dei dati: cosa puoi davvero sapere, il team costruisce una lettura in tre colonne: cosa sappiamo, cosa assumiamo e quale decisione prendiamo. Questo formato impedisce di presentare un numero come se fosse una conclusione autosufficiente.

EvidenzaInterpretazione prudenteDecisione conseguente
Segnale positivo ma non isolatoIl fenomeno esiste, ma la causa e ancora incertaCercare baseline o holdout
Segmento con risposta diversaL’effetto medio nasconde eterogeneitaAnalizzare coorti o sottogruppi
Costo operativo crescenteIl risultato va valutato sul margineApplicare soglie economiche

Lab / esercizio

Livello base

Prendi una decisione reale collegata a Epistemologia dei dati: cosa puoi davvero sapere e scrivi in cinque righe: obiettivo, metrica primaria, baseline, rischio principale e azione prevista. Non usare più di una metrica primaria.

Livello intermedio

Costruisci una tabella con almeno tre segmenti o scenari. Per ciascuno indica segnale, possibile spiegazione alternativa e controllo necessario prima di decidere.

Livello research-grade

Disegna un piano di validazione: ipotesi, dati necessari, criterio di esclusione, soglia decisionale e controllo post-decisione. Specifica anche che cosa ti farebbe cambiare idea.

Dataset e materiali consigliati

Usa case study decisionali, metriche prodotto, risultati di esperimenti, DAG semplici, report analitici e serie storiche simulate. Se non hai dati reali, crea un dataset sintetico con 200-500 righe e almeno una colonna temporale, una colonna segmento, una metrica di outcome e una variabile di esposizione.

Errore tipico da evitare

L’errore più frequente e trattare Epistemologia dei dati: cosa puoi davvero sapere come una definizione da ricordare invece che come un protocollo decisionale. In pratica succede quando si presenta una metrica senza baseline, un grafico senza ipotesi, o una raccomandazione senza costo dell’errore.

Un controllo utile è chiedersi: “se questo risultato fosse falso o instabile, quale decisione sbaglierei?”. Se la risposta non è chiara, la lezione non è ancora stata applicata davvero.

Quiz o checkpoint

  1. Qual è la decisione concreta che questa lezione dovrebbe migliorare?
  2. Quale baseline rende interpretabile il risultato?
  3. Quale assunzione, se sbagliata, cambierebbe la conclusione?
  4. Quale controllo minimo useresti prima di presentare la raccomandazione?

Riepilogo operativo

Epistemologia dei dati: cosa puoi davvero sapere e una competenza utile quando collega concetto, dato e decisione. Studiala partendo da un problema reale, formalizza il segnale, cerca una baseline credibile, costruisci un esempio e chiudi con un controllo pratico. Categoria: Fondamenti. Difficoltà: advanced. Tempo stimato: 18 min.