Vai al contenuto principale
Fondamenti della Significativita' Statistica - immagine ufficiale della lezione su GinnyTech, creata da AD

Fondamenti della significativita statistica

Ipotesi nulla e alternativa, distribuzione campionaria, statistica test e p-value. Dalla lezione del tè di Ronald Fisher (1925) al test A/A numerico, con limiti del testing frequentista e template di validazione operativa.

AD
Creato da Andrii Dyshkantiuk
Lezione 173 / 216 Livello: Avanzato Durata: 18 min Prerequisiti: 1

Cosa imparerai

  • Comprendere il problema analitico e il contesto decisionale
  • Applicare esempi, metriche e controlli a casi reali

Fondamenti della significatività statistica

Un esperimento mostra una differenza tra variante A e B, ma il team deve capire se sta osservando un segnale affidabile o una variazione compatibile con il caso. Fondamenti della significatività statistica introduce il linguaggio minimo per ragionare su rumore, ipotesi nulla, errore e decisione.

Una scena da cui partire

Leggi questa lezione come base per conversazioni più prudenti. Significatività statistica non decide da sola: aiuta a separare rumore, evidenza e impatto pratico.

  • Contesto: Quale decisione rende utile il concetto?
  • Metodo: Quale conflitto tra team o metriche devi anticipare?
  • Applicazione: Quale frase useresti per spiegarlo in riunione?

Le origini: Ronald Fisher e il “ladies tasting tea” (1925)

Nel 1925 Ronald Fisher pubblica Statistical Methods for Research Workers, il libro che cristallizza l’approccio moderno alla verifica delle ipotesi. Ma è forse un aneddoto precedente, il “ladies tasting tea”, a illustrare meglio il nucleo del suo pensiero.

Una signora sosteneva di saper distinguere, assaggiando una tazza di tè con latte, se il latte era stato versato prima o dopo il tè. Fisher progetta un esperimento: prepara otto tazze — quattro con latte prima, quattro con latte dopo — e le presenta in ordine casuale alla signora, chiedendole di classificare ciascuna. Non si tratta di un test di sapori qualsiasi: Fisher vuole dimostrare che esiste un modo logico e quantitativo per stabilire se il risultato è dovuto a una capacità reale o al caso.

Come si imposta il problema?

Fisher definisce una ipotesi nulla (H₀): la signora non ha alcuna capacità discriminante; ogni risposta corretta è dovuta al caso. Poi, sotto questa ipotesi, calcola la probabilità di ottenere ciascun possibile esito. Se la signora indovina tutte e otto le tazze, la probabilità è:

$$P(\text{8/8 corrette} \mid H_0) = \frac{1}{\binom{8}{4}} = \frac{1}{70} \approx 0{,}014$$

Fisher sceglie di rifiutare H₀ se la probabilità dei dati osservati sotto l’ipotesi nulla è inferiore a 1 su 70 — una soglia che oggi chiamiamo livello di significatività (α). Con 8/8 corrette, la signora supera la prova con evidenza forte.

Questo esperimento è importante non per il tè, ma per il meccanismo logico che introduce: un’ipotesi di default scettica, una misura di evidenza contro di essa, una soglia decisionale. Quel meccanismo è oggi il cuore del testing frequentista.

Nota storica: Fisher non usava il termine “p-value” esattamente come lo intendiamo oggi. Per lui il valore calcolato era un indice di evidenza, non un interruttore decisionale rigido. La formalizzazione in regola “se p < α, rifiuta H₀” arriva più tardi con Jerzy Neyman e Egon Pearson, che introdussero la dicotomia tra errore di I e II tipo.

Ipotesi nulla e ipotesi alternativa

Ogni test d’ipotesi parte da due affermazioni in competizione.

Ipotesi nulla (H₀): è lo status quo, l’affermazione che non c’è effetto, differenza o relazione. È l’ipotesi che il test cerca di falsificare. Esempi:

  • La media del gruppo trattamento è uguale alla media del gruppo controllo: $\mu_T = \mu_C$
  • La conversione non cambia: $p_T - p_C = 0$
  • Il coefficiente di regressione è zero: $\beta = 0$

Ipotesi alternativa (H₁ o Ha): è ciò che vogliamo dimostrare, la presenza di un effetto. Esempi:

  • $\mu_T \neq \mu_C$ (bilaterale)
  • $p_T > p_C$ (unilaterale, direzionale)
  • $\beta \neq 0$

La scelta tra test unilaterale e bilaterale non è banale. Se hai un’aspettativa direzionale chiara (il nuovo design dovrebbe aumentare la conversione), puoi usare un test unilaterale, che ha più potenza statistica. Ma se c’è anche solo la possibilità che l’effetto vada nella direzione opposta (e peggiori la metrica), devi usare un test bilaterale. La maggior parte degli A/B test in produzione usa test bilaterali per prudenza.

La regola operativa è semplice: H₀ è l’ipotesi che vuoi rigettare; H₁ è l’ipotesi che vuoi supportare. Il test non “prova” H₁, ma valuta se i dati sono sufficientemente incompatibili con H₀ da giustificarne il rifiuto.

La distribuzione campionaria

Il concetto più difficile e più importante della significatività statistica è la distribuzione campionaria.

Se tu potessi ripetere lo stesso esperimento infinite volte, ogni volta calcoleresti una statistica diversa (es. la differenza nelle medie). La distribuzione di tutte queste statistiche, al variare dei campioni, è la distribuzione campionaria.

Ecco la proprietà chiave: sotto H₀, conosciamo la forma di questa distribuzione. Per una media campionaria, il Teorema del Limite Centrale ci dice che la distribuzione campionaria è approssimativamente normale con media pari alla media della popolazione e deviazione standard pari all’errore standard ($\sigma / \sqrt{n}$).

Per una differenza tra due proporzioni (come in un A/B test), sotto H₀ la distribuzione campionaria della differenza è normale con media 0 e deviazione standard data da:

$$SE = \sqrt{p(1-p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}$$

dove $p$ è la proporzione pooled sotto H₀.

Perché è così importante? Perché la distribuzione campionaria è il ponte tra ciò che osserviamo (un singolo numero, la differenza nel nostro esperimento) e ciò che ci aspettiamo sotto H₀. Se la differenza osservata cade nelle code estreme della distribuzione campionaria — dove la probabilità è bassa — allora abbiamo evidenza contro H₀.

Il test d’ipotesi in cinque passi

Ecco la sequenza operativa che userai in ogni test di significatività.

PassoAzioneEsempio (A/B test)
1Definisci H₀ e H₁H₀: $p_T - p_C = 0$; H₁: $p_T - p_C \neq 0$
2Scegli α (livello di significatività)α = 0,05 (errore di I tipo accettabile al 5%)
3Calcola la statistica test$z = \frac{\hat{p}_T - \hat{p}_C}{SE}$
4Calcola il p-valueProbabilità di osservare una z almeno così estrema sotto H₀
5Confronta p-value con αSe p < α, rifiuta H₀; altrimenti, non rifiutare H₀

Il passo 3 e 4 sono tecnici, ma il ragionamento è sempre lo stesso: misuri la distanza tra i tuoi dati e l’ipotesi nulla, e chiedi “quanto è raro questo scostamento se H₀ fosse vera?”.

Esempio concreto: test A/A numerico

Un test A/A è un esperimento in cui entrambi i gruppi ricevono esattamente lo stesso trattamento. Non c’è differenza reale: H₀ è vera per costruzione.

Perché fare un test A/A? Per calibrare il sistema. Se il tuo test di significatività funziona correttamente, in un test A/A dovresti osservare un risultato “significativo” (p < α) esattamente in una proporzione α dei casi. Con α = 0,05, circa 1 test A/A su 20 mostrerà un falso positivo — per puro caso.

Simuliamo numericamente.

Setup della simulazione

Immagina un prodotto con una conversione base del 10%. Assegniamo 10.000 utenti a ciascuno di due gruppi identici (A e A). Entrambi vedono la stessa esperienza. Calcoliamo la differenza nelle conversioni e il p-value.

Eseguiamo questo esperimento 1.000 volte:

IterazioneConv. Gruppo AConv. Gruppo A’Differenzap-valueSignificativo?
110,12%9,88%+0,24%0,57No
29,95%10,05%-0,10%0,81No
310,45%9,55%+0,90%0,04Sì (falso positivo)
410,01%9,99%+0,02%0,96No
59,80%10,20%-0,40%0,35No
1.00010,03%9,97%+0,06%0,89No

Risultato: su 1.000 test A/A, 52 hanno dato p < 0,05 — una proporzione del 5,2%, coerente con α = 0,05.

Questa simulazione insegna tre cose.

  1. Il sistema funziona: il tasso di falsi positivi è vicino al livello nominale α.
  2. I falsi positivi sono inevitabili: anche con un test perfettamente calibrato, ~1 esperimento su 20 produrrà un risultato “significativo” per puro caso.
  3. L’interpretazione è contestuale: se vedi p = 0,04 in un test A/B reale, non puoi sapere se è un vero effetto o uno dei ~5% di falsi positivi attesi. Per questo servono repliche, potenza adeguata e validazione esterna.

Cosa fare se il test A/A dà troppi falsi positivi

Se il tuo sistema produce significatività molto più spesso di α nei test A/A (es. 15% invece di 5%), c’è un problema strutturale. Le cause possibili:

  • Sistema di randomizzazione difettoso: la divisione tra gruppi non è bilanciata su variabili confondenti.
  • Metrica non indipendente: la metrica primaria ha autocorrelazione o dipende da eventi condivisi (es. un utente in entrambi i gruppi per errore di tracciamento).
  • Peeking (sbirciamento): guardi il risultato prima che il campione sia completo e decidi di fermarti quando vedi un p basso. Questo gonfia il tasso di errore di I tipo in modo drammatico (fino al 20-30%).
  • Segmentazione post-hoc: cerchi significatività in sotto-gruppi (per dispositivo, per paese) finché non trovi qualcosa di “significativo”.

Un test A/A regolare è la miglior calibrazione che puoi fare. Se non fai test A/A, non sai se il tuo sistema di misura è affidabile.

Limiti del testing frequentista

Il framework della significatività statistica è potente ma ha tre limiti strutturali che ogni analista deve conoscere.

Limite 1: Il p-value non dice quanto è probabile H₁

Il p-value risponde a: “Se H₀ fosse vera, che probabilità avrei di osservare dati almeno così estremi?”

Non risponde a: “Qual è la probabilità che H₁ sia vera?” o “Qual è la probabilità che H₀ sia falsa?”

Questa confusione è pervasiva. In un sondaggio del 2019 condotto su 1.500 ricercatori (Nature, 2019), il 58% interpretava erroneamente p < 0,05 come “c’è meno del 5% di probabilità che i risultati siano dovuti al caso” — che è la definizione sbagliata. Il p-value è condizionato a H₀, non a H₁.

Limite 2: Dipendenza dalla dimensione del campione

Con campioni enormi, qualsiasi effetto — anche irrilevante — diventa statisticamente significativo. Con campioni piccoli, anche effetti importanti possono non raggiungere la significatività.

Esempio: su 10 milioni di utenti, una differenza di conversione dello 0,01% produrrà quasi certamente p < 0,001. L’effetto è reale, ma vale il rollout? Probabilmente no, se il costo d’implementazione supera il beneficio.

Al contrario, un aumento del 15% della conversione su un campione di 200 utenti per gruppo potrebbe dare p = 0,12 — non significativo per α = 0,05, ma potenzialmente interessante se estendi il test.

Il testing frequentista non incorpora automaticamente la rilevanza pratica. Per questo ogni test dovrebbe essere accompagnato da effect size e intervallo di confidenza.

Limite 3: Il problema dei confronti multipli

Ogni test d’ipotesi ha una probabilità α di dare un falso positivo. Se esegui K test indipendenti, la probabilità di almeno un falso positivo sale a:

$$P(\text{almeno 1 falso positivo}) = 1 - (1 - \alpha)^K$$

Con α = 0,05 e K = 20 test, la probabilità di vedere almeno un “finto” risultato significativo è circa il 64%. Con K = 100, sfiora il 99,4%.

Nel mondo reale questo si manifesta in tre modi.

  • Test multipli simultanei: analizzi 10 metriche e trovi una “vincitrice”. È davvero un effetto o un falso positivo?
  • Segmentazione post-hoc: suddividi per dispositivo, browser, paese — a un certo punto trovi un segmento significativo.
  • Peeking sequenziale: guardi il risultato ogni giorno e decidi di fermarti quando vedi p < 0,05. Questo equivale a eseguire decine di test sullo stesso dato.

Esistono correzioni (Bonferroni, Holm, Benjamini-Hochberg) ma non risolvono il problema alla radice: la significatività statistica è una misura di evidenza, non un certificato di verità.

Template check per validità del test

Prima di dichiarare un risultato “significativo”, verifica questi sette punti. Se anche uno solo fallisce, il test non è affidabile.

#DomandaCosa controllareEsito
1Randomizzazione valida?La divisione tra gruppi è casuale e bilanciata su variabili note (dispositivo, fonte traffico)?✅ / ❌
2Indipendenza delle osservazioni?Ogni unità è assegnata a un solo gruppo? Non c’è spillover tra gruppi?✅ / ❌
3α definito ex-ante?Il livello di significatività è stato scelto prima di guardare i dati?✅ / ❌
4Campione determinato ex-ante?La numerosità (o la durata) era fissata prima dell’esperimento?✅ / ❌
5Test bilaterale o unilaterale motivato?La scelta è giustificata dalla domanda di business, non dal risultato?✅ / ❌
6Effect size riportato?Il risultato include la grandezza dell’effetto e il suo intervallo di confidenza?✅ / ❌
7Guardrail stabili?Le metriche secondarie (ricavi, bounce rate, errori) non sono peggiorate significativamente?✅ / ❌

Se rispondi ❌ a uno o più punti, il test non è valido o le conclusioni vanno riviste.

Interpretazione delle soglie

La significatività a p < 0,05 è lo standard più comune, ma non è universale. Ecco come scegliere α in base al contesto decisionale.

Contestoα consigliatoRatio
Esplorazione / idea generation0,10Costo del falso positivo basso, meglio esplorare
Test A/B standard (UX, marketing)0,05Standard accettato; bilancia falsi positivi e falsi negativi
Lancio prodotto critico (checkout, pagamenti)0,01Costo del falso positivo altissimo (ricavi in calo, churn)
Test clinico / regolatorio0,001 o menoLa vita delle persone dipende dalla decisione

Avvertenza: abbassare α riduce i falsi positivi, ma aumenta i falsi negativi (non rilevi un effetto reale). La scelta di α è un trade-off, non una verità assoluta.

Riepilogo operativo

In questa lezione hai visto le fondamenta della significatività statistica.

  • Ipotesi nulla e alternativa: H₀ è lo scetticismo di default; H₁ è ciò che vuoi dimostrare. Il test non “prova” H₁ ma valuta se i dati sono incompatibili con H₀.
  • Distribuzione campionaria: la distribuzione della statistica test sotto H₀, che permette di calcolare quanto è “estremo” il risultato osservato.
  • Test d’ipotesi in cinque passi: formula H₀ e H₁, scegli α, calcola la statistica test, calcola il p-value, confronta con α.
  • Caso storico: l’esperimento del tè di Fisher (1925) introduce il meccanismo logico che usiamo ancora oggi.
  • Test A/A numerico: simulazione di 1.000 test A/A che mostra il 5,2% di falsi positivi — esattamente quanto previsto da α = 0,05.
  • Limiti del testing frequentista: il p-value non è la probabilità di H₁, dipende dal campione, e soffre del problema dei confronti multipli.
  • Template check: sette domande per validare la qualità di ogni test prima di trarre conclusioni.

Una domanda che gli studenti pongono spesso è: «se la significatività statistica ha tutti questi limiti, perché la usiamo ancora?» La risposta è che non esiste un’alternativa altrettanto pratica per il lavoro quotidiano. Il Bayesianesimo offre un framework più intuitivo (le probabilità sono direttamente interpretabili come credenze), ma richiede la specificazione di prior che in contesti aziendali sono difficili da difendere. L’approccio frequentista, con tutti i suoi difetti, fornisce un linguaggio comune, riproducibile, che due team diversi possono applicare allo stesso test e ottenere la stessa conclusione. È un standard di comunicazione oltre che uno strumento statistico.

La prossima lezione applica queste fondamenta alla formulazione di domande causali e ipotesi business ben strutturate.

Problema reale

Nel dominio di experiment science, Fondamenti della significatività statistica serve a risolvere questo problema: decidere con esperimenti robusti senza abusare di p-value, peeking o letture casuali del rumore. La lezione non va trattata come teoria isolata, ma come un modo per migliorare una scelta concreta con dati, assunzioni esplicite e controlli minimi.

Obiettivo operativo: Comprendere il problema analitico e il contesto decisionale; Applicare esempi, metriche e controlli a casi reali. Se alla fine non sai indicare quale decisione cambia, quale dato osservi e quale errore vuoi evitare, la lezione non è ancora diventata competenza applicata.

Modello concettuale

FaseCosa chiarireOutput
DomandaQuale scelta reale deve migliorare?Decisione da prendere
MisuraQuale segnale osservabile rappresenta il problema?Metrica o dato sorgente
ControlloQuale baseline rende il risultato interpretabile?Confronto credibile
AzioneChe cosa cambia dopo l’analisi?Prossimo passo operativo

Il modello concettuale è intenzionalmente semplice: decisione, dato, controllo, azione. Ogni approfondimento tecnico deve rafforzare almeno uno di questi quattro punti.

Formalizzazione rigorosa

Per rendere Fondamenti della significatività statistica analizzabile, definisci prima l’unità di lavoro: unità sperimentale, metrica, variante, campione o effetto. Poi collega questa unità a una metrica osservabile: MDE, potenza, intervallo, errore, varianza e rischio business. Infine dichiara la decisione attesa: disegno esperimento, calcolo potenza, analisi o decision memo.

ElementoSpecifica richiesta
Unità di analisiunità sperimentale, metrica, variante, campione o effetto
Segnale principaleMDE, potenza, intervallo, errore, varianza e rischio business
BaselinePeriodo precedente, gruppo comparabile, benchmark o scenario controfattuale
Decisionedisegno esperimento, calcolo potenza, analisi o decision memo
RischioScambiare un numero disponibile per una prova sufficiente

La formalizzazione e solida quando un altro analista può riprodurre la logica, criticare le assunzioni e ottenere la stessa decisione partendo dagli stessi dati.

Esempio o caso studio

Una variante mostra +2% di conversione, ma l’intervallo è largo e l’effetto economico è piccolo rispetto al costo di implementazione. Il caso mostra perché i fondamenti statistici servono a discutere evidenza, rumore e decisione, non a cercare una parola magica come “significativo”.

Evidenza osservataLettura prudenteAzione consigliata
Il numero miglioraPotrebbe essere effetto reale o variazione normaleCercare confronto e segmento
Un segmento cambia più degli altriLa media aggregata nasconde una differenzaSeparare coorti o casi d’uso
Il costo cresce insieme al risultatoL’impatto va letto sul margineStimare trade-off e sostenibilità

Lab / esercizio

Livello base

Scrivi una scheda di una pagina per Fondamenti della significatività statistica: decisione da supportare, metrica primaria, baseline, rischio principale e azione se il segnale e confermato.

Livello intermedio

Costruisci una tabella con tre segmenti, periodi o scenari. Per ciascuno indica cosa cambia, quale spiegazione alternativa e plausibile e quale controllo useresti prima di raccomandare un azione.

Livello research-grade

Prepara un decision memo: ipotesi, dati richiesti, criteri di esclusione, controlli di qualità, soglia decisionale, rischio residuo e piano di monitoraggio dopo la decisione.

Dataset e materiali consigliati

Usa A/B test, A/A test, log esperimenti, metriche prodotto, simulatori e dataset sintetici. Se non hai accesso a dati reali, crea un dataset sintetico con almeno 200 righe, una dimensione temporale, una dimensione segmento e una metrica di outcome.

Errore tipico da evitare

L’errore più comune e usare Fondamenti della significatività statistica come etichetta invece che come processo. Succede quando il team mostra un grafico senza decisione, una metrica senza baseline, o una conclusione senza indicare quale assunzione potrebbe invalidarla.

La domanda di controllo è: se questo risultato fosse instabile, quale scelta sbaglierei? Se la risposta non è concreta, manca ancora il collegamento tra analisi e azione.

Quiz o checkpoint

  1. Quale decisione concreta dovrebbe migliorare questa lezione?
  2. Quale unità di analisi rende il problema misurabile?
  3. Quale baseline useresti per evitare una lettura ingenua?
  4. Quale errore tipico potrebbe cambiare la conclusione?
  5. Quale output consegneresti a uno stakeholder non tecnico?

Riepilogo operativo

Fondamenti della significatività statistica diventa utile quando produce una decisione più chiara, non quando aggiunge terminologia. Usa il framework problema, modello, formalizzazione, esempio, lab e checkpoint per trasformare la lezione in pratica verificabile. Categoria: Decisione. Difficoltà: advanced. Tempo stimato: 18 min.