Fondamenti della significativita statistica

Ipotesi nulla e alternativa, distribuzione campionaria, statistica test e p-value. Dalla lezione del tè di Ronald Fisher (1925) al test A/A numerico, con limiti del testing frequentista e template di validazione operativa.

Creato daAndrii Dyshkantiuk

Lezione 173 / 236Livello: AvanzatoDurata: 18 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

'Progetto finale: un mini analytics stack completo'

Fondamenti della significativita statistica

Un esperimento mostra una differenza tra la variante A e la variante B, e il team deve capire se sta osservando un segnale affidabile o una variazione compatibile con il caso. I fondamenti della significatività statistica introducono il linguaggio minimo per ragionare su rumore, ipotesi nulla, errore e decisione. La categoria è Decisione, quindi il punto non è accumulare definizioni ma capire quale scelta cambia quando il dato diventa più affidabile. La significatività non decide da sola: aiuta a separare rumore, evidenza e impatto pratico, e per questo va trattata come uno strumento per migliorare una decisione concreta, con assunzioni esplicite e controlli minimi.

Il problema reale

Decidere con esperimenti robusti significa non abusare di p-value, peeking o letture casuali del rumore. Il problema non è conoscere la teoria in astratto, ma capire cosa fare quando i dati sono incompleti, le metriche ambigue o i vincoli tecnici rendono fragile la lettura. Una lezione utile deve separare il segnale dal rumore, indicare quale baseline usare e mostrare quale azione diventa più difendibile dopo l’analisi. Se alla fine non sai indicare quale decisione cambia, quale dato osservi e quale errore vuoi evitare, la lezione non è ancora diventata competenza applicata.

Il modello concettuale

Il modello è volutamente semplice: decisione, dato, controllo, azione. Ogni approfondimento tecnico deve rafforzare almeno uno di questi quattro punti, altrimenti rischia di trasformare una nozione in un rituale vuoto.

Fase	Cosa chiarire	Output
Domanda	Quale scelta reale deve migliorare?	Decisione da prendere
Misura	Quale segnale osservabile rappresenta il problema?	Metrica o dato sorgente
Controllo	Quale baseline rende il risultato interpretabile?	Confronto credibile
Azione	Che cosa cambia dopo l’analisi?	Prossimo passo operativo

La formalizzazione

Per rendere il tema analizzabile conviene definire prima l’unità di lavoro (unità sperimentale, metrica, variante, campione o effetto), poi collegarla a una metrica osservabile (MDE, potenza, intervallo, errore, varianza e rischio business) e infine dichiarare la decisione attesa (disegno esperimento, calcolo potenza, analisi o decision memo). La formalizzazione è solida quando un altro analista può riprodurre la logica, criticare le assunzioni e ottenere la stessa decisione partendo dagli stessi dati.

Elemento	Specifica richiesta
Unità di analisi	unità sperimentale, metrica, variante, campione o effetto
Segnale principale	MDE, potenza, intervallo, errore, varianza e rischio business
Baseline	Periodo precedente, gruppo comparabile, benchmark o scenario controfattuale
Decisione	disegno esperimento, calcolo potenza, analisi o decision memo
Rischio	Scambiare un numero disponibile per una prova sufficiente

Le origini: Ronald Fisher e il “ladies tasting tea” (1925)

Nel 1925 Ronald Fisher pubblica Statistical Methods for Research Workers, il libro che cristallizza l’approccio moderno alla verifica delle ipotesi. Ma è forse un aneddoto precedente, il “ladies tasting tea”, a illustrare meglio il nucleo del suo pensiero.

Una signora sosteneva di saper distinguere, assaggiando una tazza di tè con latte, se il latte era stato versato prima o dopo il tè. Fisher progetta un esperimento: prepara otto tazze, quattro con latte prima e quattro con latte dopo, e le presenta in ordine casuale alla signora, chiedendole di classificare ciascuna. Non si tratta di un test di sapori qualsiasi: Fisher vuole dimostrare che esiste un modo logico e quantitativo per stabilire se il risultato è dovuto a una capacità reale o al caso.

Come si imposta il problema?

Fisher definisce una ipotesi nulla (H₀): la signora non ha alcuna capacità discriminante; ogni risposta corretta è dovuta al caso. Poi, sotto questa ipotesi, calcola la probabilità di ottenere ciascun possibile esito. Se la signora indovina tutte e otto le tazze, la probabilità è:

$P(\text{8/8 corrette} \mid H_0) = \frac{1}{\binom{8}{4}} = \frac{1}{70} \approx 0{,}014$

Fisher sceglie di rifiutare H₀ se la probabilità dei dati osservati sotto l’ipotesi nulla è inferiore a 1 su 70, una soglia che oggi chiamiamo livello di significatività (α). Con 8/8 corrette, la signora supera la prova con evidenza forte.

Questo esperimento è importante non per il tè, ma per il meccanismo logico che introduce: un’ipotesi di default scettica, una misura di evidenza contro di essa, una soglia decisionale. Quel meccanismo è oggi il cuore del testing frequentista.

Nota storica: Fisher non usava il termine “p-value” esattamente come lo intendiamo oggi. Per lui il valore calcolato era un indice di evidenza, non un interruttore decisionale rigido. La formalizzazione in regola “se p < α, rifiuta H₀” arriva più tardi con Jerzy Neyman e Egon Pearson, che introdussero la dicotomia tra errore di I e II tipo.

Ipotesi nulla e ipotesi alternativa

Ogni test d’ipotesi parte da due affermazioni in competizione.

Ipotesi nulla (H₀): è lo status quo, l’affermazione che non c’è effetto, differenza o relazione. È l’ipotesi che il test cerca di falsificare. Esempi:

La media del gruppo trattamento è uguale alla media del gruppo controllo: $\mu_T = \mu_C$
La conversione non cambia: $p_T - p_C = 0$
Il coefficiente di regressione è zero: $\beta = 0$

Ipotesi alternativa (H₁ o Ha): è ciò che vogliamo dimostrare, la presenza di un effetto. Esempi:

$\mu_T \neq \mu_C$ (bilaterale)
$p_T > p_C$ (unilaterale, direzionale)
$\beta \neq 0$

La scelta tra test unilaterale e bilaterale non è banale. Se hai un’aspettativa direzionale chiara (il nuovo design dovrebbe aumentare la conversione), puoi usare un test unilaterale, che ha più potenza statistica. Ma se c’è anche solo la possibilità che l’effetto vada nella direzione opposta (e peggiori la metrica), devi usare un test bilaterale. La maggior parte degli A/B test in produzione usa test bilaterali per prudenza.

La regola operativa è semplice: H₀ è l’ipotesi che vuoi rigettare; H₁ è l’ipotesi che vuoi supportare. Il test non “prova” H₁, ma valuta se i dati sono sufficientemente incompatibili con H₀ da giustificarne il rifiuto.

La distribuzione campionaria

Il concetto più difficile e più importante della significatività statistica è la distribuzione campionaria.

Se tu potessi ripetere lo stesso esperimento infinite volte, ogni volta calcoleresti una statistica diversa (es. la differenza nelle medie). La distribuzione di tutte queste statistiche, al variare dei campioni, è la distribuzione campionaria.

Ecco la proprietà chiave: sotto H₀, conosciamo la forma di questa distribuzione. Per una media campionaria, il Teorema del Limite Centrale ci dice che la distribuzione campionaria è approssimativamente normale con media pari alla media della popolazione e deviazione standard pari all’errore standard ( $\sigma / \sqrt{n}$ ).

Per una differenza tra due proporzioni (come in un A/B test), sotto H₀ la distribuzione campionaria della differenza è normale con media 0 e deviazione standard data da:

$SE = \sqrt{p(1-p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}$

dove $p$ è la proporzione pooled sotto H₀.

La distribuzione campionaria conta perché è il ponte tra ciò che osserviamo, cioè un singolo numero come la differenza nel nostro esperimento, e ciò che ci aspettiamo sotto H₀. Se la differenza osservata cade nelle code estreme della distribuzione, dove la probabilità è bassa, allora abbiamo evidenza contro H₀.

Il test d’ipotesi in cinque passi

Ecco la sequenza operativa che userai in ogni test di significatività.

Passo	Azione	Esempio (A/B test)
1	Definisci H₀ e H₁	H₀: $p_T - p_C = 0$ ; H₁: $p_T - p_C \neq 0$
2	Scegli α (livello di significatività)	α = 0,05 (errore di I tipo accettabile al 5%)
3	Calcola la statistica test	$z = \frac{\hat{p}_T - \hat{p}_C}{SE}$
4	Calcola il p-value	Probabilità di osservare una z almeno così estrema sotto H₀
5	Confronta p-value con α	Se p < α, rifiuta H₀; altrimenti, non rifiutare H₀

I passi 3 e 4 sono tecnici, ma il ragionamento resta sempre lo stesso: misuri la distanza tra i tuoi dati e l’ipotesi nulla, e chiedi “quanto è raro questo scostamento se H₀ fosse vera?”.

Esempio concreto: test A/A numerico

Un test A/A è un esperimento in cui entrambi i gruppi ricevono esattamente lo stesso trattamento. Non c’è differenza reale: H₀ è vera per costruzione.

Perché fare un test A/A? Per calibrare il sistema. Se il tuo test di significatività funziona correttamente, in un test A/A dovresti osservare un risultato “significativo” (p < α) esattamente in una proporzione α dei casi. Con α = 0,05, circa 1 test A/A su 20 mostrerà un falso positivo per puro caso.

Simuliamo numericamente.

Setup della simulazione

Immagina un prodotto con una conversione base del 10%. Assegniamo 10.000 utenti a ciascuno di due gruppi identici (A e A). Entrambi vedono la stessa esperienza. Calcoliamo la differenza nelle conversioni e il p-value, e ripetiamo l’esperimento 1.000 volte.

Iterazione	Conv. Gruppo A	Conv. Gruppo A’	Differenza	p-value	Significativo?
1	10,12%	9,88%	+0,24%	0,57	No
2	9,95%	10,05%	-0,10%	0,81	No
3	10,45%	9,55%	+0,90%	0,04	Sì (falso positivo)
4	10,01%	9,99%	+0,02%	0,96	No
5	9,80%	10,20%	-0,40%	0,35	No
…	…	…	…	…	…
1.000	10,03%	9,97%	+0,06%	0,89	No

Risultato: su 1.000 test A/A, 52 hanno dato p < 0,05, una proporzione del 5,2%, coerente con α = 0,05.

Questa simulazione insegna tre cose.

Il sistema funziona: il tasso di falsi positivi è vicino al livello nominale α.
I falsi positivi sono inevitabili: anche con un test perfettamente calibrato, circa 1 esperimento su 20 produrrà un risultato “significativo” per puro caso.
L’interpretazione è contestuale: se vedi p = 0,04 in un test A/B reale, non puoi sapere se è un vero effetto o uno dei circa 5% di falsi positivi attesi. Per questo servono repliche, potenza adeguata e validazione esterna.

Cosa fare se il test A/A dà troppi falsi positivi

Se il tuo sistema produce significatività molto più spesso di α nei test A/A (es. 15% invece di 5%), c’è un problema strutturale. Le cause possibili:

Sistema di randomizzazione difettoso: la divisione tra gruppi non è bilanciata su variabili confondenti.
Metrica non indipendente: la metrica primaria ha autocorrelazione o dipende da eventi condivisi (es. un utente in entrambi i gruppi per errore di tracciamento).
Peeking (sbirciamento): guardi il risultato prima che il campione sia completo e decidi di fermarti quando vedi un p basso. Questo gonfia il tasso di errore di I tipo in modo drammatico (fino al 20-30%).
Segmentazione post-hoc: cerchi significatività in sotto-gruppi (per dispositivo, per paese) finché non trovi qualcosa di “significativo”.

Un test A/A regolare è la miglior calibrazione che puoi fare. Se non fai test A/A, non sai se il tuo sistema di misura è affidabile.

Limiti del testing frequentista

Il framework della significatività statistica è potente ma ha tre limiti strutturali che ogni analista deve conoscere.

Limite 1: Il p-value non dice quanto è probabile H₁

Il p-value risponde a: “Se H₀ fosse vera, che probabilità avrei di osservare dati almeno così estremi?”

Non risponde a: “Qual è la probabilità che H₁ sia vera?” o “Qual è la probabilità che H₀ sia falsa?”

Questa confusione è pervasiva. In un sondaggio del 2019 condotto su 1.500 ricercatori (Nature, 2019), il 58% interpretava erroneamente p < 0,05 come “c’è meno del 5% di probabilità che i risultati siano dovuti al caso”, che è la definizione sbagliata. Il p-value è condizionato a H₀, non a H₁.

Limite 2: Dipendenza dalla dimensione del campione

Con campioni enormi, qualsiasi effetto, anche irrilevante, diventa statisticamente significativo. Con campioni piccoli, anche effetti importanti possono non raggiungere la significatività.

Esempio: su 10 milioni di utenti, una differenza di conversione dello 0,01% produrrà quasi certamente p < 0,001. L’effetto è reale, ma vale il rollout? Probabilmente no, se il costo d’implementazione supera il beneficio.

Al contrario, un aumento del 15% della conversione su un campione di 200 utenti per gruppo potrebbe dare p = 0,12, non significativo per α = 0,05, ma potenzialmente interessante se estendi il test.

Il testing frequentista non incorpora automaticamente la rilevanza pratica. Per questo ogni test dovrebbe essere accompagnato da effect size e intervallo di confidenza.

Limite 3: Il problema dei confronti multipli

Ogni test d’ipotesi ha una probabilità α di dare un falso positivo. Se esegui K test indipendenti, la probabilità di almeno un falso positivo sale a:

$P(\text{almeno 1 falso positivo}) = 1 - (1 - \alpha)^K$

Con α = 0,05 e K = 20 test, la probabilità di vedere almeno un “finto” risultato significativo è circa il 64%. Con K = 100, sfiora il 99,4%.

Nel mondo reale questo si manifesta in tre modi.

Test multipli simultanei: analizzi 10 metriche e trovi una “vincitrice”. È davvero un effetto o un falso positivo?
Segmentazione post-hoc: suddividi per dispositivo, browser, paese, e a un certo punto trovi un segmento significativo.
Peeking sequenziale: guardi il risultato ogni giorno e decidi di fermarti quando vedi p < 0,05. Questo equivale a eseguire decine di test sullo stesso dato.

Esistono correzioni (Bonferroni, Holm, Benjamini-Hochberg) ma non risolvono il problema alla radice: la significatività statistica è una misura di evidenza, non un certificato di verità.

Template check per validità del test

Prima di dichiarare un risultato “significativo”, verifica questi sette punti. Se anche uno solo fallisce, il test non è affidabile.

#	Domanda	Cosa controllare	Esito
1	Randomizzazione valida?	La divisione tra gruppi è casuale e bilanciata su variabili note (dispositivo, fonte traffico)?	✅ / ❌
2	Indipendenza delle osservazioni?	Ogni unità è assegnata a un solo gruppo? Non c’è spillover tra gruppi?	✅ / ❌
3	α definito ex-ante?	Il livello di significatività è stato scelto prima di guardare i dati?	✅ / ❌
4	Campione determinato ex-ante?	La numerosità (o la durata) era fissata prima dell’esperimento?	✅ / ❌
5	Test bilaterale o unilaterale motivato?	La scelta è giustificata dalla domanda di business, non dal risultato?	✅ / ❌
6	Effect size riportato?	Il risultato include la grandezza dell’effetto e il suo intervallo di confidenza?	✅ / ❌
7	Guardrail stabili?	Le metriche secondarie (ricavi, bounce rate, errori) non sono peggiorate significativamente?	✅ / ❌

Se rispondi ❌ a uno o più punti, il test non è valido o le conclusioni vanno riviste.

Interpretazione delle soglie

La significatività a p < 0,05 è lo standard più comune, ma non è universale. Ecco come scegliere α in base al contesto decisionale.

Contesto	α consigliato	Ratio
Esplorazione / idea generation	0,10	Costo del falso positivo basso, meglio esplorare
Test A/B standard (UX, marketing)	0,05	Standard accettato; bilancia falsi positivi e falsi negativi
Lancio prodotto critico (checkout, pagamenti)	0,01	Costo del falso positivo altissimo (ricavi in calo, churn)
Test clinico / regolatorio	0,001 o meno	La vita delle persone dipende dalla decisione

Avvertenza: abbassare α riduce i falsi positivi, ma aumenta i falsi negativi (non rilevi un effetto reale). La scelta di α è un trade-off, non una verità assoluta.

Lab e checkpoint

Al livello base, scrivi una scheda di una pagina: decisione da supportare, metrica primaria, baseline, rischio principale e azione se il segnale è confermato. Al livello intermedio, costruisci una tabella con tre segmenti, periodi o scenari e per ciascuno indica cosa cambia, quale spiegazione alternativa è plausibile e quale controllo useresti prima di raccomandare un’azione. Al livello research-grade, prepara un decision memo con ipotesi, dati richiesti, criteri di esclusione, controlli di qualità, soglia decisionale, rischio residuo e piano di monitoraggio. Per i dati puoi usare A/B test, A/A test, log esperimenti, metriche prodotto, simulatori e dataset sintetici; se non hai accesso a dati reali, crea un dataset sintetico con almeno 200 righe, una dimensione temporale, una dimensione segmento e una metrica di outcome.

L’errore più comune è usare i fondamenti come etichetta invece che come processo: un grafico senza decisione, una metrica senza baseline, una conclusione senza dire quale assunzione potrebbe invalidarla. La domanda di controllo è netta: se questo risultato fosse instabile, quale scelta sbaglierei? Se la risposta non è concreta, manca ancora il collegamento tra analisi e azione. Per verificarti, prova a rispondere: quale decisione concreta dovrebbe migliorare questa lezione, quale unità di analisi rende il problema misurabile, quale baseline eviterebbe una lettura ingenua, quale errore tipico cambierebbe la conclusione e quale output consegneresti a uno stakeholder non tecnico.

Riepilogo

In questa lezione hai visto le fondamenta della significatività statistica.

Ipotesi nulla e alternativa: H₀ è lo scetticismo di default; H₁ è ciò che vuoi dimostrare. Il test non “prova” H₁ ma valuta se i dati sono incompatibili con H₀.
Distribuzione campionaria: la distribuzione della statistica test sotto H₀, che permette di calcolare quanto è “estremo” il risultato osservato.
Test d’ipotesi in cinque passi: formula H₀ e H₁, scegli α, calcola la statistica test, calcola il p-value, confronta con α.
Caso storico: l’esperimento del tè di Fisher (1925) introduce il meccanismo logico che usiamo ancora oggi.
Test A/A numerico: simulazione di 1.000 test A/A che mostra il 5,2% di falsi positivi, esattamente quanto previsto da α = 0,05.
Limiti del testing frequentista: il p-value non è la probabilità di H₁, dipende dal campione, e soffre del problema dei confronti multipli.
Template check: sette domande per validare la qualità di ogni test prima di trarre conclusioni.

Una domanda che gli studenti pongono spesso è: «se la significatività statistica ha tutti questi limiti, perché la usiamo ancora?» La risposta è che non esiste un’alternativa altrettanto pratica per il lavoro quotidiano. Il Bayesianesimo offre un framework più intuitivo (le probabilità sono direttamente interpretabili come credenze), ma richiede la specificazione di prior che in contesti aziendali sono difficili da difendere. L’approccio frequentista, con tutti i suoi difetti, fornisce un linguaggio comune e riproducibile, che due team diversi possono applicare allo stesso test ottenendo la stessa conclusione. È un standard di comunicazione oltre che uno strumento statistico. La prossima lezione applica queste fondamenta alla formulazione di domande causali e ipotesi business ben strutturate.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Base da riprendereAnalytics Engineering con dbt e Semantic Layer'Progetto finale: un mini analytics stack completo'Progetto finale: un mini analytics stack completo. Laboratorio integrativo del modulo.Collegamento tematicoFondamenti Filosofici dell Analisi dei DatiKarl Popper: falsificabilità e sperimentazionePerché un test che conferma la tua ipotesi non vale quanto uno che potrebbe smentirla.Collegamento tematicoMatematica per l Analisi DatiTest d'ipotesi: logica, non ritualeLa logica dei test d'ipotesi oltre la meccanica del p-value.Collegamento tematicoMarketing Data Science, Forecasting e Decision ModelsPMF e product-market fit analyticsMisurare il product-market fit con metodi quantitativi: retention, NRR e Sean Ellis test.Collegamento tematicoMarketing Data Science, Forecasting e Decision ModelsDrift, model decay e monitoraggioDrift, model decay e monitoraggio. Lezione core del modulo Marketing Data Science, Forecasting e Decision Models con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.Collegamento tematicoAnalytics Engineering con dbt e Semantic LayerChe cos'è davvero l'analytics engineeringChe cos'è davvero l'analytics engineering. Lezione introduttiva del modulo Analytics Engineering con dbt e Semantic Layer.