Fondamenti della significativita statistica
Ipotesi nulla e alternativa, distribuzione campionaria, statistica test e p-value. Dalla lezione del tè di Ronald Fisher (1925) al test A/A numerico, con limiti del testing frequentista e template di validazione operativa.
Cosa imparerai
- Comprendere il problema analitico e il contesto decisionale
- Applicare esempi, metriche e controlli a casi reali
Collegamenti
Fondamenti della significatività statistica
Un esperimento mostra una differenza tra variante A e B, ma il team deve capire se sta osservando un segnale affidabile o una variazione compatibile con il caso. Fondamenti della significatività statistica introduce il linguaggio minimo per ragionare su rumore, ipotesi nulla, errore e decisione.
Una scena da cui partire
Leggi questa lezione come base per conversazioni più prudenti. Significatività statistica non decide da sola: aiuta a separare rumore, evidenza e impatto pratico.
- Contesto: Quale decisione rende utile il concetto?
- Metodo: Quale conflitto tra team o metriche devi anticipare?
- Applicazione: Quale frase useresti per spiegarlo in riunione?
Le origini: Ronald Fisher e il “ladies tasting tea” (1925)
Nel 1925 Ronald Fisher pubblica Statistical Methods for Research Workers, il libro che cristallizza l’approccio moderno alla verifica delle ipotesi. Ma è forse un aneddoto precedente, il “ladies tasting tea”, a illustrare meglio il nucleo del suo pensiero.
Una signora sosteneva di saper distinguere, assaggiando una tazza di tè con latte, se il latte era stato versato prima o dopo il tè. Fisher progetta un esperimento: prepara otto tazze — quattro con latte prima, quattro con latte dopo — e le presenta in ordine casuale alla signora, chiedendole di classificare ciascuna. Non si tratta di un test di sapori qualsiasi: Fisher vuole dimostrare che esiste un modo logico e quantitativo per stabilire se il risultato è dovuto a una capacità reale o al caso.
Come si imposta il problema?
Fisher definisce una ipotesi nulla (H₀): la signora non ha alcuna capacità discriminante; ogni risposta corretta è dovuta al caso. Poi, sotto questa ipotesi, calcola la probabilità di ottenere ciascun possibile esito. Se la signora indovina tutte e otto le tazze, la probabilità è:
$$P(\text{8/8 corrette} \mid H_0) = \frac{1}{\binom{8}{4}} = \frac{1}{70} \approx 0{,}014$$
Fisher sceglie di rifiutare H₀ se la probabilità dei dati osservati sotto l’ipotesi nulla è inferiore a 1 su 70 — una soglia che oggi chiamiamo livello di significatività (α). Con 8/8 corrette, la signora supera la prova con evidenza forte.
Questo esperimento è importante non per il tè, ma per il meccanismo logico che introduce: un’ipotesi di default scettica, una misura di evidenza contro di essa, una soglia decisionale. Quel meccanismo è oggi il cuore del testing frequentista.
Nota storica: Fisher non usava il termine “p-value” esattamente come lo intendiamo oggi. Per lui il valore calcolato era un indice di evidenza, non un interruttore decisionale rigido. La formalizzazione in regola “se p < α, rifiuta H₀” arriva più tardi con Jerzy Neyman e Egon Pearson, che introdussero la dicotomia tra errore di I e II tipo.
Ipotesi nulla e ipotesi alternativa
Ogni test d’ipotesi parte da due affermazioni in competizione.
Ipotesi nulla (H₀): è lo status quo, l’affermazione che non c’è effetto, differenza o relazione. È l’ipotesi che il test cerca di falsificare. Esempi:
- La media del gruppo trattamento è uguale alla media del gruppo controllo: $\mu_T = \mu_C$
- La conversione non cambia: $p_T - p_C = 0$
- Il coefficiente di regressione è zero: $\beta = 0$
Ipotesi alternativa (H₁ o Ha): è ciò che vogliamo dimostrare, la presenza di un effetto. Esempi:
- $\mu_T \neq \mu_C$ (bilaterale)
- $p_T > p_C$ (unilaterale, direzionale)
- $\beta \neq 0$
La scelta tra test unilaterale e bilaterale non è banale. Se hai un’aspettativa direzionale chiara (il nuovo design dovrebbe aumentare la conversione), puoi usare un test unilaterale, che ha più potenza statistica. Ma se c’è anche solo la possibilità che l’effetto vada nella direzione opposta (e peggiori la metrica), devi usare un test bilaterale. La maggior parte degli A/B test in produzione usa test bilaterali per prudenza.
La regola operativa è semplice: H₀ è l’ipotesi che vuoi rigettare; H₁ è l’ipotesi che vuoi supportare. Il test non “prova” H₁, ma valuta se i dati sono sufficientemente incompatibili con H₀ da giustificarne il rifiuto.
La distribuzione campionaria
Il concetto più difficile e più importante della significatività statistica è la distribuzione campionaria.
Se tu potessi ripetere lo stesso esperimento infinite volte, ogni volta calcoleresti una statistica diversa (es. la differenza nelle medie). La distribuzione di tutte queste statistiche, al variare dei campioni, è la distribuzione campionaria.
Ecco la proprietà chiave: sotto H₀, conosciamo la forma di questa distribuzione. Per una media campionaria, il Teorema del Limite Centrale ci dice che la distribuzione campionaria è approssimativamente normale con media pari alla media della popolazione e deviazione standard pari all’errore standard ($\sigma / \sqrt{n}$).
Per una differenza tra due proporzioni (come in un A/B test), sotto H₀ la distribuzione campionaria della differenza è normale con media 0 e deviazione standard data da:
$$SE = \sqrt{p(1-p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}$$
dove $p$ è la proporzione pooled sotto H₀.
Perché è così importante? Perché la distribuzione campionaria è il ponte tra ciò che osserviamo (un singolo numero, la differenza nel nostro esperimento) e ciò che ci aspettiamo sotto H₀. Se la differenza osservata cade nelle code estreme della distribuzione campionaria — dove la probabilità è bassa — allora abbiamo evidenza contro H₀.
Il test d’ipotesi in cinque passi
Ecco la sequenza operativa che userai in ogni test di significatività.
| Passo | Azione | Esempio (A/B test) |
|---|---|---|
| 1 | Definisci H₀ e H₁ | H₀: $p_T - p_C = 0$; H₁: $p_T - p_C \neq 0$ |
| 2 | Scegli α (livello di significatività) | α = 0,05 (errore di I tipo accettabile al 5%) |
| 3 | Calcola la statistica test | $z = \frac{\hat{p}_T - \hat{p}_C}{SE}$ |
| 4 | Calcola il p-value | Probabilità di osservare una z almeno così estrema sotto H₀ |
| 5 | Confronta p-value con α | Se p < α, rifiuta H₀; altrimenti, non rifiutare H₀ |
Il passo 3 e 4 sono tecnici, ma il ragionamento è sempre lo stesso: misuri la distanza tra i tuoi dati e l’ipotesi nulla, e chiedi “quanto è raro questo scostamento se H₀ fosse vera?”.
Esempio concreto: test A/A numerico
Un test A/A è un esperimento in cui entrambi i gruppi ricevono esattamente lo stesso trattamento. Non c’è differenza reale: H₀ è vera per costruzione.
Perché fare un test A/A? Per calibrare il sistema. Se il tuo test di significatività funziona correttamente, in un test A/A dovresti osservare un risultato “significativo” (p < α) esattamente in una proporzione α dei casi. Con α = 0,05, circa 1 test A/A su 20 mostrerà un falso positivo — per puro caso.
Simuliamo numericamente.
Setup della simulazione
Immagina un prodotto con una conversione base del 10%. Assegniamo 10.000 utenti a ciascuno di due gruppi identici (A e A). Entrambi vedono la stessa esperienza. Calcoliamo la differenza nelle conversioni e il p-value.
Eseguiamo questo esperimento 1.000 volte:
| Iterazione | Conv. Gruppo A | Conv. Gruppo A’ | Differenza | p-value | Significativo? |
|---|---|---|---|---|---|
| 1 | 10,12% | 9,88% | +0,24% | 0,57 | No |
| 2 | 9,95% | 10,05% | -0,10% | 0,81 | No |
| 3 | 10,45% | 9,55% | +0,90% | 0,04 | Sì (falso positivo) |
| 4 | 10,01% | 9,99% | +0,02% | 0,96 | No |
| 5 | 9,80% | 10,20% | -0,40% | 0,35 | No |
| … | … | … | … | … | … |
| 1.000 | 10,03% | 9,97% | +0,06% | 0,89 | No |
Risultato: su 1.000 test A/A, 52 hanno dato p < 0,05 — una proporzione del 5,2%, coerente con α = 0,05.
Questa simulazione insegna tre cose.
- Il sistema funziona: il tasso di falsi positivi è vicino al livello nominale α.
- I falsi positivi sono inevitabili: anche con un test perfettamente calibrato, ~1 esperimento su 20 produrrà un risultato “significativo” per puro caso.
- L’interpretazione è contestuale: se vedi p = 0,04 in un test A/B reale, non puoi sapere se è un vero effetto o uno dei ~5% di falsi positivi attesi. Per questo servono repliche, potenza adeguata e validazione esterna.
Cosa fare se il test A/A dà troppi falsi positivi
Se il tuo sistema produce significatività molto più spesso di α nei test A/A (es. 15% invece di 5%), c’è un problema strutturale. Le cause possibili:
- Sistema di randomizzazione difettoso: la divisione tra gruppi non è bilanciata su variabili confondenti.
- Metrica non indipendente: la metrica primaria ha autocorrelazione o dipende da eventi condivisi (es. un utente in entrambi i gruppi per errore di tracciamento).
- Peeking (sbirciamento): guardi il risultato prima che il campione sia completo e decidi di fermarti quando vedi un p basso. Questo gonfia il tasso di errore di I tipo in modo drammatico (fino al 20-30%).
- Segmentazione post-hoc: cerchi significatività in sotto-gruppi (per dispositivo, per paese) finché non trovi qualcosa di “significativo”.
Un test A/A regolare è la miglior calibrazione che puoi fare. Se non fai test A/A, non sai se il tuo sistema di misura è affidabile.
Limiti del testing frequentista
Il framework della significatività statistica è potente ma ha tre limiti strutturali che ogni analista deve conoscere.
Limite 1: Il p-value non dice quanto è probabile H₁
Il p-value risponde a: “Se H₀ fosse vera, che probabilità avrei di osservare dati almeno così estremi?”
Non risponde a: “Qual è la probabilità che H₁ sia vera?” o “Qual è la probabilità che H₀ sia falsa?”
Questa confusione è pervasiva. In un sondaggio del 2019 condotto su 1.500 ricercatori (Nature, 2019), il 58% interpretava erroneamente p < 0,05 come “c’è meno del 5% di probabilità che i risultati siano dovuti al caso” — che è la definizione sbagliata. Il p-value è condizionato a H₀, non a H₁.
Limite 2: Dipendenza dalla dimensione del campione
Con campioni enormi, qualsiasi effetto — anche irrilevante — diventa statisticamente significativo. Con campioni piccoli, anche effetti importanti possono non raggiungere la significatività.
Esempio: su 10 milioni di utenti, una differenza di conversione dello 0,01% produrrà quasi certamente p < 0,001. L’effetto è reale, ma vale il rollout? Probabilmente no, se il costo d’implementazione supera il beneficio.
Al contrario, un aumento del 15% della conversione su un campione di 200 utenti per gruppo potrebbe dare p = 0,12 — non significativo per α = 0,05, ma potenzialmente interessante se estendi il test.
Il testing frequentista non incorpora automaticamente la rilevanza pratica. Per questo ogni test dovrebbe essere accompagnato da effect size e intervallo di confidenza.
Limite 3: Il problema dei confronti multipli
Ogni test d’ipotesi ha una probabilità α di dare un falso positivo. Se esegui K test indipendenti, la probabilità di almeno un falso positivo sale a:
$$P(\text{almeno 1 falso positivo}) = 1 - (1 - \alpha)^K$$
Con α = 0,05 e K = 20 test, la probabilità di vedere almeno un “finto” risultato significativo è circa il 64%. Con K = 100, sfiora il 99,4%.
Nel mondo reale questo si manifesta in tre modi.
- Test multipli simultanei: analizzi 10 metriche e trovi una “vincitrice”. È davvero un effetto o un falso positivo?
- Segmentazione post-hoc: suddividi per dispositivo, browser, paese — a un certo punto trovi un segmento significativo.
- Peeking sequenziale: guardi il risultato ogni giorno e decidi di fermarti quando vedi p < 0,05. Questo equivale a eseguire decine di test sullo stesso dato.
Esistono correzioni (Bonferroni, Holm, Benjamini-Hochberg) ma non risolvono il problema alla radice: la significatività statistica è una misura di evidenza, non un certificato di verità.
Template check per validità del test
Prima di dichiarare un risultato “significativo”, verifica questi sette punti. Se anche uno solo fallisce, il test non è affidabile.
| # | Domanda | Cosa controllare | Esito |
|---|---|---|---|
| 1 | Randomizzazione valida? | La divisione tra gruppi è casuale e bilanciata su variabili note (dispositivo, fonte traffico)? | ✅ / ❌ |
| 2 | Indipendenza delle osservazioni? | Ogni unità è assegnata a un solo gruppo? Non c’è spillover tra gruppi? | ✅ / ❌ |
| 3 | α definito ex-ante? | Il livello di significatività è stato scelto prima di guardare i dati? | ✅ / ❌ |
| 4 | Campione determinato ex-ante? | La numerosità (o la durata) era fissata prima dell’esperimento? | ✅ / ❌ |
| 5 | Test bilaterale o unilaterale motivato? | La scelta è giustificata dalla domanda di business, non dal risultato? | ✅ / ❌ |
| 6 | Effect size riportato? | Il risultato include la grandezza dell’effetto e il suo intervallo di confidenza? | ✅ / ❌ |
| 7 | Guardrail stabili? | Le metriche secondarie (ricavi, bounce rate, errori) non sono peggiorate significativamente? | ✅ / ❌ |
Se rispondi ❌ a uno o più punti, il test non è valido o le conclusioni vanno riviste.
Interpretazione delle soglie
La significatività a p < 0,05 è lo standard più comune, ma non è universale. Ecco come scegliere α in base al contesto decisionale.
| Contesto | α consigliato | Ratio |
|---|---|---|
| Esplorazione / idea generation | 0,10 | Costo del falso positivo basso, meglio esplorare |
| Test A/B standard (UX, marketing) | 0,05 | Standard accettato; bilancia falsi positivi e falsi negativi |
| Lancio prodotto critico (checkout, pagamenti) | 0,01 | Costo del falso positivo altissimo (ricavi in calo, churn) |
| Test clinico / regolatorio | 0,001 o meno | La vita delle persone dipende dalla decisione |
Avvertenza: abbassare α riduce i falsi positivi, ma aumenta i falsi negativi (non rilevi un effetto reale). La scelta di α è un trade-off, non una verità assoluta.
Riepilogo operativo
In questa lezione hai visto le fondamenta della significatività statistica.
- Ipotesi nulla e alternativa: H₀ è lo scetticismo di default; H₁ è ciò che vuoi dimostrare. Il test non “prova” H₁ ma valuta se i dati sono incompatibili con H₀.
- Distribuzione campionaria: la distribuzione della statistica test sotto H₀, che permette di calcolare quanto è “estremo” il risultato osservato.
- Test d’ipotesi in cinque passi: formula H₀ e H₁, scegli α, calcola la statistica test, calcola il p-value, confronta con α.
- Caso storico: l’esperimento del tè di Fisher (1925) introduce il meccanismo logico che usiamo ancora oggi.
- Test A/A numerico: simulazione di 1.000 test A/A che mostra il 5,2% di falsi positivi — esattamente quanto previsto da α = 0,05.
- Limiti del testing frequentista: il p-value non è la probabilità di H₁, dipende dal campione, e soffre del problema dei confronti multipli.
- Template check: sette domande per validare la qualità di ogni test prima di trarre conclusioni.
Una domanda che gli studenti pongono spesso è: «se la significatività statistica ha tutti questi limiti, perché la usiamo ancora?» La risposta è che non esiste un’alternativa altrettanto pratica per il lavoro quotidiano. Il Bayesianesimo offre un framework più intuitivo (le probabilità sono direttamente interpretabili come credenze), ma richiede la specificazione di prior che in contesti aziendali sono difficili da difendere. L’approccio frequentista, con tutti i suoi difetti, fornisce un linguaggio comune, riproducibile, che due team diversi possono applicare allo stesso test e ottenere la stessa conclusione. È un standard di comunicazione oltre che uno strumento statistico.
La prossima lezione applica queste fondamenta alla formulazione di domande causali e ipotesi business ben strutturate.
Problema reale
Nel dominio di experiment science, Fondamenti della significatività statistica serve a risolvere questo problema: decidere con esperimenti robusti senza abusare di p-value, peeking o letture casuali del rumore. La lezione non va trattata come teoria isolata, ma come un modo per migliorare una scelta concreta con dati, assunzioni esplicite e controlli minimi.
Obiettivo operativo: Comprendere il problema analitico e il contesto decisionale; Applicare esempi, metriche e controlli a casi reali. Se alla fine non sai indicare quale decisione cambia, quale dato osservi e quale errore vuoi evitare, la lezione non è ancora diventata competenza applicata.
Modello concettuale
| Fase | Cosa chiarire | Output |
|---|---|---|
| Domanda | Quale scelta reale deve migliorare? | Decisione da prendere |
| Misura | Quale segnale osservabile rappresenta il problema? | Metrica o dato sorgente |
| Controllo | Quale baseline rende il risultato interpretabile? | Confronto credibile |
| Azione | Che cosa cambia dopo l’analisi? | Prossimo passo operativo |
Il modello concettuale è intenzionalmente semplice: decisione, dato, controllo, azione. Ogni approfondimento tecnico deve rafforzare almeno uno di questi quattro punti.
Formalizzazione rigorosa
Per rendere Fondamenti della significatività statistica analizzabile, definisci prima l’unità di lavoro: unità sperimentale, metrica, variante, campione o effetto. Poi collega questa unità a una metrica osservabile: MDE, potenza, intervallo, errore, varianza e rischio business. Infine dichiara la decisione attesa: disegno esperimento, calcolo potenza, analisi o decision memo.
| Elemento | Specifica richiesta |
|---|---|
| Unità di analisi | unità sperimentale, metrica, variante, campione o effetto |
| Segnale principale | MDE, potenza, intervallo, errore, varianza e rischio business |
| Baseline | Periodo precedente, gruppo comparabile, benchmark o scenario controfattuale |
| Decisione | disegno esperimento, calcolo potenza, analisi o decision memo |
| Rischio | Scambiare un numero disponibile per una prova sufficiente |
La formalizzazione e solida quando un altro analista può riprodurre la logica, criticare le assunzioni e ottenere la stessa decisione partendo dagli stessi dati.
Esempio o caso studio
Una variante mostra +2% di conversione, ma l’intervallo è largo e l’effetto economico è piccolo rispetto al costo di implementazione. Il caso mostra perché i fondamenti statistici servono a discutere evidenza, rumore e decisione, non a cercare una parola magica come “significativo”.
| Evidenza osservata | Lettura prudente | Azione consigliata |
|---|---|---|
| Il numero migliora | Potrebbe essere effetto reale o variazione normale | Cercare confronto e segmento |
| Un segmento cambia più degli altri | La media aggregata nasconde una differenza | Separare coorti o casi d’uso |
| Il costo cresce insieme al risultato | L’impatto va letto sul margine | Stimare trade-off e sostenibilità |
Lab / esercizio
Livello base
Scrivi una scheda di una pagina per Fondamenti della significatività statistica: decisione da supportare, metrica primaria, baseline, rischio principale e azione se il segnale e confermato.
Livello intermedio
Costruisci una tabella con tre segmenti, periodi o scenari. Per ciascuno indica cosa cambia, quale spiegazione alternativa e plausibile e quale controllo useresti prima di raccomandare un azione.
Livello research-grade
Prepara un decision memo: ipotesi, dati richiesti, criteri di esclusione, controlli di qualità, soglia decisionale, rischio residuo e piano di monitoraggio dopo la decisione.
Dataset e materiali consigliati
Usa A/B test, A/A test, log esperimenti, metriche prodotto, simulatori e dataset sintetici. Se non hai accesso a dati reali, crea un dataset sintetico con almeno 200 righe, una dimensione temporale, una dimensione segmento e una metrica di outcome.
Errore tipico da evitare
L’errore più comune e usare Fondamenti della significatività statistica come etichetta invece che come processo. Succede quando il team mostra un grafico senza decisione, una metrica senza baseline, o una conclusione senza indicare quale assunzione potrebbe invalidarla.
La domanda di controllo è: se questo risultato fosse instabile, quale scelta sbaglierei? Se la risposta non è concreta, manca ancora il collegamento tra analisi e azione.
Quiz o checkpoint
- Quale decisione concreta dovrebbe migliorare questa lezione?
- Quale unità di analisi rende il problema misurabile?
- Quale baseline useresti per evitare una lettura ingenua?
- Quale errore tipico potrebbe cambiare la conclusione?
- Quale output consegneresti a uno stakeholder non tecnico?
Riepilogo operativo
Fondamenti della significatività statistica diventa utile quando produce una decisione più chiara, non quando aggiunge terminologia. Usa il framework problema, modello, formalizzazione, esempio, lab e checkpoint per trasformare la lezione in pratica verificabile. Categoria: Decisione. Difficoltà: advanced. Tempo stimato: 18 min.
Percorso collegato
Lezioni da leggere insieme
Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.