Epistemologia dei dati - immagine ufficiale della lezione su GinnyTech, creata da AD

Epistemologia dei dati: cosa puoi davvero sapere

I limiti della conoscenza ottenibile dai dati e come distinguere ciò che sai da ciò che credi di sapere.

Creato daAndrii Dyshkantiuk

Lezione 206 / 236Livello: AvanzatoDurata: 18 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

Frequentismo vs bayesianismo: due modi di leggere l'incertezza

Epistemologia dei dati: cosa puoi davvero sapere

In una dashboard i numeri sembrano oggettivi. Arrivano da log, sensori, pipeline e modelli di pulizia, e per questo li trattiamo come se fossero la realtà stessa. Ma ogni dato è il prodotto di scelte: come lo abbiamo raccolto, come lo abbiamo definito, quali trasformazioni gli abbiamo applicato. L’epistemologia dei dati ti chiede di considerare il dato per quello che è, cioè un’evidenza costruita, non una finestra trasparente sul mondo.

Quando un dato regge una decisione

La domanda che conta nel lavoro quotidiano è una: questo dato sostiene davvero la scelta che sto per fare, oppure nasconde assunzioni, bias, una causalità fragile o una domanda formulata male? Non è una questione astratta. Riguarda decisioni concrete che devono migliorare grazie a dati affidabili e a una soglia di errore dichiarata in anticipo. Senza questo aggancio alla pratica, la conoscenza resta decorativa e non diventa mai competenza.

Il percorso dall’osservazione alla scelta

flowchart LR
    A["Osservazione"]
    B["Assunzione"]
    C["Modello"]
    D["Evidenza"]
    E["Decisione"]
    A --> B
    B --> C
    C --> D
    D --> E

Il percorso è sequenziale: prima si formula la domanda, poi la si traduce in unità osservabili, quindi si valuta la qualità del dato e solo alla fine si decide. Chi salta un passaggio ottiene analisi eleganti ma fragili.

Passaggio	Domanda guida	Output atteso
Framing	Quale decisione deve cambiare?	Una scelta concreta, non una curiosità
Misura	Quale segnale rappresenta il fenomeno?	Metrica, fonte e granularità
Confronto	Rispetto a quale baseline interpreto il risultato?	Benchmark o controfattuale plausibile
Azione	Che cosa faccio se il segnale supera la soglia?	Decisione, owner e prossimo controllo

Quattro elementi da tenere insieme

Conviene leggere l’epistemologia dei dati come una relazione tra quattro elementi, ciascuno con una definizione operativa che puoi applicare subito.

Elemento	Definizione operativa
Unità	osservazione, ipotesi, variabile, meccanismo causale o criterio di evidenza
Segnale	forza dell’evidenza, coerenza causale, robustezza delle assunzioni, costo dell’errore decisionale
Baseline	spiegazione alternativa, controfattuale, gruppo comparabile o scenario senza intervento
Decisione	accettare, rifiutare o riformulare una spiegazione prima dell’uso in azienda

La regola pratica è semplice: una misura serve solo se riduce l’incertezza su una decisione specifica. Se non cambia una scelta, è documentazione. Se cambia una scelta senza controlli, è rischio.

Un caso di retention da leggere bene

Un comitato legge una crescita della retention come prova che la nuova iniziativa ha funzionato. Chi applica l’epistemologia dei dati separa con attenzione l’osservazione dalla spiegazione, l’assunzione dalla decisione, e si rifiuta di presentare un numero come se fosse già una conclusione che si regge da sola.

Evidenza	Interpretazione prudente	Decisione conseguente
Segnale positivo ma non isolato	Il fenomeno esiste, ma la causa è incerta	Cercare baseline o holdout
Segmento con risposta diversa	L’effetto medio nasconde eterogeneità	Analizzare coorti o sottogruppi
Costo operativo crescente	Valutare il risultato sul margine	Applicare soglie economiche

Esercizio su tre livelli

Al livello base scrivi in cinque righe una decisione reale collegata all’epistemologia dei dati: obiettivo, metrica primaria, baseline, rischio principale e azione prevista. Usa una sola metrica primaria.

Al livello intermedio costruisci una tabella con almeno tre segmenti o scenari. Per ciascuno indica il segnale, una possibile spiegazione alternativa e il controllo necessario prima di decidere.

Al livello research-grade progetta un piano di validazione: ipotesi, dati necessari, criterio di esclusione, soglia decisionale e controllo post-decisione. Specifica cosa ti farebbe cambiare idea.

Per i materiali, usa case study decisionali, metriche prodotto, risultati di esperimenti, DAG semplici, report analitici e serie storiche simulate. Se non hai dati reali, crea un dataset sintetico con 200-500 righe, includendo almeno una colonna temporale, una colonna segmento, una metrica di outcome e una variabile di esposizione.

L’errore che svuota tutto

L’errore più comune è trattare l’epistemologia dei dati come una definizione da mandare a memoria invece che come un protocollo decisionale. Capita quando si presenta una metrica senza baseline, un grafico senza ipotesi o una raccomandazione senza valutare il costo dell’errore.

Il controllo che lo smaschera è una domanda: “Se questo risultato fosse falso o instabile, quale decisione sbaglierei?” Se non sai rispondere, la lezione è rimasta sulla carta.

Quiz o checkpoint

Qual è la decisione concreta che questa lezione dovrebbe migliorare?
Quale baseline rende interpretabile il risultato?
Quale assunzione, se sbagliata, cambierebbe la conclusione?
Quale controllo minimo useresti prima di presentare la raccomandazione?

Riepilogo operativo

L’epistemologia dei dati collega concetto, dato e decisione. Si studia partendo da un problema reale, formalizzando il segnale, cercando una baseline credibile, costruendo un esempio e chiudendo con un controllo pratico. È questo passaggio che trasforma la conoscenza in uno strumento per decidere in modo consapevole, anche quando i dati sono incerti.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Collegamento tematicoMetriche, KPI Trees e Fondamenti AnaliticiSegnale, rumore, variazione normale e falsi allarmiCome distinguere cambiamenti reali da normale variabilita dei dati usando baseline, soglie, volume, stagionalita e controllo del rumore.Collegamento tematicoSignificativita Statistica, A/B Testing e Experimentation ScienceFondamenti della significativita statisticaIpotesi nulla e alternativa, distribuzione campionaria, statistica test e p-value. Dalla lezione del tè di Ronald Fisher (1925) al test A/A numerico, con limiti del testing frequentista e template di validazione operativa.Collegamento tematicoSignificativita Statistica, A/B Testing e Experimentation ScienceP-value, errori e interpretazione correttaChe cosa misura davvero il p-value e come leggerlo insieme a effect size, intervalli, power e decisione business.Collegamento tematicoAI per Analisi Dati, Data Engineering e AutoMLAI per data engineering, mapping e documentazioneAI per data engineering, mapping e documentazione su GinnyTech: decidere cosa documentare con AI e quale validazione tecnica blocca il rilascio con controlli, ownership e output revisionabili.Collegamento tematicoAI per Analisi Dati, Data Engineering e AutoMLValutazione: leakage, drift, metriche e limitiValutazione: leakage, drift, metriche e limiti su GinnyTech: decidere se un modello puo entrare nel processo o deve restare esperimento controllato con controlli, ownership e output revisionabili.Collegamento tematicoPanoramica del Corso e Metodo di Studio per Data WorkCome si studia materiale tecnico senza dimenticarloCome si studia materiale tecnico senza dimenticarlo. Lezione narrativa del modulo Panoramica del Corso e Metodo di Studio per Data Work: metodo 40-10-10, richiamo attivo, revisione distribuita e applicazione pratica allo studio tecnico.