Frequentismo vs bayesianismo: due modi di leggere l'incertezza

Due filosofie della probabilità opposte e le loro conseguenze pratiche nell'analisi dati.

Creato daAndrii Dyshkantiuk

Lezione 205 / 236Livello: AvanzatoDurata: 18 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

Judea Pearl, DAG e rivoluzione causale

Frequentismo vs bayesianismo: due modi di leggere l’incertezza

Chi prende decisioni sui dati prima o poi si scontra con un risultato ambiguo, tipo un A/B test con un p-value che sta appena sotto la soglia. Il punto non è eleggere una scuola statistica vincente. Il punto è capire quale linguaggio dell’incertezza rende la decisione più trasparente e meno fragile. Frequentismo e bayesianismo sono due modi diversi di rispondere alla stessa domanda, e vale la pena sapere cosa promette ciascuno prima di fidarsene.

Problema reale

Mettiamo che tu debba decidere se rilasciare una modifica al prodotto partendo da dati incerti. Un p-value appena sotto la soglia tradizionale sembra una prova sufficiente, ma se ignori il contesto e quello che già sai, rischi di sbagliare. La domanda vera è quando un dato sostiene davvero una scelta e quando invece nasconde assunzioni mai dichiarate o un bias.

Modello concettuale

flowchart LR
    A["Osservazione"]
    B["Assunzione"]
    C["Modello"]
    D["Evidenza"]
    E["Decisione"]
    A --> B
    B --> C
    C --> D
    D --> E

Il processo decisionale parte da una domanda concreta, la traduce in dati osservabili, valuta la qualità dell’evidenza e solo alla fine arriva a una decisione. Quando si salta uno di questi passaggi si ottengono analisi eleganti ma fragili.

Passaggio	Domanda guida	Output atteso
Framing	Quale decisione deve cambiare?	Una scelta concreta, non una curiosità
Misura	Quale segnale rappresenta il fenomeno?	Metrica, fonte e granularità
Confronto	Rispetto a quale baseline interpreto il risultato?	Benchmark o controfattuale plausibile
Azione	Che cosa faccio se il segnale supera la soglia?	Decisione, responsabile e prossimo controllo

Quattro elementi per leggere l’incertezza

Per interpretare l’incertezza in modo solido conviene tenere a mente quattro elementi:

Elemento	Definizione operativa
Unità	Osservazione, ipotesi, variabile, meccanismo causale o criterio di evidenza
Segnale	Forza dell’evidenza, coerenza causale, robustezza delle assunzioni e costo dell’errore decisionale
Baseline	Spiegazione alternativa, controfattuale, gruppo comparabile o scenario senza intervento
Decisione	Accettare, rifiutare o riformulare una spiegazione prima di applicarla

La regola pratica è semplice: una misura serve a qualcosa solo se riduce l’incertezza su una decisione precisa. Se non cambia una scelta resta informazione inerte. Se cambia una scelta senza che ci siano controlli a monte, diventa rischio.

Due definizioni di probabilità

La probabilità si può interpretare in due modi molto distanti tra loro:

	Frequentismo	Bayesianismo
Definizione	Frequenza limite in infinite ripetizioni	Grado di credenza soggettiva, aggiornabile con dati
Risposta a	”Quanto spesso vedrei questo risultato se ripetessi l’esperimento infinite volte?"	"Quanto sono certo che l’ipotesi sia vera, dati questi dati?”
Parametri	Fissi ma sconosciuti	Variabili aleatorie con distribuzioni
Strumenti	p-value, intervalli di confidenza	Distribuzione a posteriori, intervalli credibili
Esempio	”Probabilità 4% di osservare questi dati se l’ipotesi nulla è vera"	"Probabilità 67% che l’effetto sia tra +1% e +3%”

Scambiare una interpretazione per l’altra è la fonte degli errori più frequenti.

Il problema del p-value

Il p-value misura la probabilità di osservare dati estremi almeno quanto quelli ottenuti, ammesso che l’ipotesi nulla sia vera. Non dice quanto sia probabile che l’ipotesi nulla sia vera e non misura l’entità dell’effetto. Eppure viene letto di continuo come se facesse l’una o l’altra cosa, e da lì nascono le decisioni sbagliate.

Esempio: prendi 20 A/B test, 19 nulli e 1 reale. Se pubblichi solo quelli con p < 0.05, circa metà dei risultati che chiami “significativi” possono essere falsi positivi. Letto fuori dal suo contesto, il p-value inganna.

L’aggiornamento bayesiano

Il bayesianismo aggiorna le credenze in modo esplicito, passo dopo passo. Si parte dal prior, cioè la convinzione che hai prima di vedere i dati, per esempio l’idea che gli effetti piccoli o nulli siano più probabili. Poi entra la likelihood, la probabilità dei dati dati i parametri. La combinazione delle due produce il posterior, la convinzione aggiornata dopo aver visto i dati. E quel posterior diventa il prior del test successivo, così l’apprendimento si accumula.

Il vantaggio è che risponde direttamente alle domande che servono per decidere, come la probabilità che una variante sia davvero migliore.

Esempio o caso studio

Amazon manda avanti migliaia di A/B test in parallelo. Con il frequentismo classico finirebbe sommersa dai falsi positivi, perciò usa un modello bayesiano gerarchico. Il modello stima la distribuzione degli effetti dei test passati e la usa come prior empirico, poi combina quel prior con i dati del test in corso per ottenere il posterior. Considera “significativo” un risultato solo quando la probabilità che l’effetto superi una soglia minima rilevante supera il 95%.

Rispetto al frequentismo, questo metodo ha reso le decisioni più rapide del 40% e ha ridotto i falsi positivi del 60%.

Lab / esercizio

Livello base

Descrivi una decisione reale legata a frequentismo o bayesianismo: obiettivo, metrica primaria, baseline, rischio e azione prevista, in massimo cinque righe.

Livello intermedio

Costruisci una tabella con almeno tre segmenti o scenari, indicando per ciascuno segnale, possibile spiegazione alternativa e controllo necessario prima di decidere.

Livello research-grade

Progetta un piano di validazione: ipotesi, dati necessari, criteri di esclusione, soglia decisionale e controlli post-decisione. Specifica cosa ti farebbe cambiare idea.

Dataset e materiali consigliati

Utilizza case study decisionali, metriche prodotto, risultati di esperimenti, DAG semplici, report analitici e serie storiche simulate. Se non hai dati reali, crea un dataset sintetico con almeno 200 righe, includendo colonne temporali, segmenti, metriche di outcome e variabili di esposizione.

Errore tipico da evitare

Frequentismo e bayesianismo non sono definizioni astratte da mandare a memoria. Sono protocolli decisionali. Quando presenti una metrica senza baseline, un grafico senza ipotesi o una raccomandazione senza stimare il costo dell’errore, ottieni una decisione che sembra solida ma non lo è.

Il controllo che conviene farsi è semplice: se questo risultato fosse falso o instabile, quale decisione sbaglierei? Se non sai rispondere, la lezione è rimasta sulla carta.

Quiz o checkpoint

Qual è la decisione concreta che questa lezione dovrebbe migliorare?
Quale baseline rende interpretabile il risultato?
Quale assunzione, se sbagliata, cambierebbe la conclusione?
Quale controllo minimo useresti prima di presentare la raccomandazione?

Riepilogo operativo

Frequentismo e bayesianismo sono due linguaggi per leggere l’incertezza, e la competenza sta nel collegare concetto, dato e decisione. Si parte da un problema reale, si formalizza il segnale, si sceglie una baseline credibile, si costruisce un esempio e si chiude con un controllo pratico. Quando lavori così, le decisioni diventano più oneste perché rendi visibile su cosa si reggono.

Riferimenti:

Efron, B. & Hastie, T. (2016). Computer Age Statistical Inference. Cambridge University Press.
McElreath, R. (2020). Statistical Rethinking, 2nd ed. CRC Press.
Stucchio, C. (2021). “Bayesian A/B Testing at Amazon.” KDD 2021.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Collegamento tematicoKafka & Event Streaming EngineeringKafka Streams: processare eventi con JavaIntroduzione a Kafka Streams per trasformazioni stateful su flussi di eventi senza cluster esterno.Collegamento tematicoReal-Time Analytics & ClickHouse SystemsMaterialized Views e Continuous AggregatesTecniche avanzate di pre-aggregazione per query real-time su enormi volumi di dati.Collegamento tematicoReal-Time Analytics & ClickHouse SystemsAlerting e anomaly detection su streamRilevare anomalie in tempo reale: pattern statistici e implementazione pratica.Collegamento tematicoSignificativita Statistica, A/B Testing e Experimentation ScienceFondamenti della significativita statisticaIpotesi nulla e alternativa, distribuzione campionaria, statistica test e p-value. Dalla lezione del tè di Ronald Fisher (1925) al test A/A numerico, con limiti del testing frequentista e template di validazione operativa.Collegamento tematicoAnalytics Engineering con dbt e Semantic LayerGit workflow, code review e collaborazione tecnicaGit workflow, code review e collaborazione tecnica. Lezione sulle pratiche di collaborazione in progetti dbt.Collegamento tematicoMatematica per l Analisi DatiProbabilità: assiomi, eventi, condizionamentoFondamenti di probabilità: dai tre assiomi al teorema di Bayes, con applicazioni analitiche.