P-value, errori e interpretazione corretta
Che cosa misura davvero il p-value e come leggerlo insieme a effect size, intervalli, power e decisione business.
Cosa imparerai
- Comprendere il problema analitico e il contesto decisionale
- Applicare esempi, metriche e controlli a casi reali
Collegamenti
Un p-value basso può far sembrare una decisione più certa di quanto sia, soprattutto quando effect size, power e qualità del disegno restano fuori dalla discussione. P-value, errori e interpretazione corretta chiarisce che cosa il p-value misura, che cosa non misura e come va letto in una decisione business.
Una scena da cui partire
Leggi questa lezione come protezione contro interpretazioni automatiche. Il p-value non è probabilità che la variante sia migliore, non misura l’importanza economica e non sostituisce un decision memo.
- Contesto: Quale intuizione deve restare dopo la lettura?
- Metodo: Quale esempio rende concreto il concetto?
- Applicazione: Quale errore diventa più facile evitare?
Con questa cornice, il punto non è demonizzare il p-value: è usarlo come una componente dell’evidenza, insieme a dimensione dell’effetto, intervallo, potenza e rischio di errore.
La definizione che pochi citano per intero
Il p-value risponde a una domanda molto specifica, ed è importante citarla per intero prima di qualsiasi discussione.
Il p-value è la probabilità di osservare un risultato almeno estremo quanto quello ottenuto, assumendo che l’ipotesi nulla sia vera.
Ogni parola conta.
- “almeno estremo”: non è la probabilità del risultato esatto, ma di tutti i risultati uguali o più estremi. Questo significa che il p-value include nella sua definizione dati che non hai osservato.
- “assumendo che l’ipotesi nulla sia vera”: il p-value assume che non ci sia alcun effetto. Non ti dice quanto sia probabile che l’ipotesi nulla sia vera. Ti dice: “se H0 fosse vera, quanto sorprendente sarebbe questo risultato?”
La confusione più frequente — anche in paper pubblicati su riviste prestigiose — è leggere il p-value come “la probabilità che H0 sia vera”. È un errore logico classico: confondere P(dato | ipotesi) con P(ipotesi | dato). Il p-value è P(dato o più estremo | H0 vera). Non è P(H0 vera | dato).
Se vuoi P(H0 vera | dato) servono metodi bayesiani, che richiedono una distribuzione a priori esplicita. Il p-value frequentista non ti dà quella risposta, per costruzione.
Errore tipo 1 e tipo 2: la mappa dei rischi
Quando prendi una decisione basata su un test statistico, puoi sbagliare in due direzioni simmetricamente opposte.
Errore tipo 1: falso positivo (α)
L’errore tipo 1 si verifica quando rifiuti l’ipotesi nulla quando in realtà è vera. In pratica: dichiari che l’intervento ha un effetto, ma in realtà la differenza osservata è dovuta al caso.
Il livello di significatività α (tipicamente 0.05) è la probabilità massima di errore tipo 1 che sei disposto a tollerare. Se α = 0.05, accetti un rischio del 5% di dichiarare un effetto inesistente.
Conseguenza nel mondo reale: lanci in produzione una modifica che non ha alcun beneficio reale. Sprechi risorse di sviluppo, complichi il codice, aumenti il carico di manutenzione — per zero guadagno.
Errore tipo 2: falso negativo (β)
L’errore tipo 2 si verifica quando non rifiuti l’ipotesi nulla quando in realtà è falsa. In pratica: concludi che non c’è effetto, ma in realtà l’intervento funziona.
β è la probabilità di commettere questo errore. La potenza statistica (power) del test è 1 — β: la probabilità di rilevare un effetto reale quando esiste.
Conseguenza nel mondo reale: scarti una feature che avrebbe aumentato le conversioni del 15% perché il test non aveva abbastanza campioni per raggiungere la significatività. Hai perso un’opportunità.
Il trade-off che nessuno ti dice
α e β sono in competizione. Ridurre α (essere più conservativi) aumenta β (riduce la potenza). L’unico modo per ridurre entrambi è aumentare la dimensione del campione.
| Scenario | Errore | α (tipico) | β (tipico) | Conseguenza |
|---|---|---|---|---|
| p < 0.05 ma falso | Tipo 1 (falso positivo) | 0.05 | — | Lanci funzione inutile |
| p ≥ 0.05 ma vero effetto | Tipo 2 (falso negativo) | — | 0.20 (power 80%) | Perdi opportunità |
Nota che β = 0.20 è lo standard convenzionale (power all’80%). Questo significa che anche in un test ben progettato, accetti il 20% di probabilità di perdere un effetto reale. Se il test è sotto-potenziato — perché il campione è troppo piccolo, la varianza troppo alta, o l’effetto più piccolo del previsto — β può salire al 50%, 70%, o più.
La soglia 0.05: storia, critiche e limiti
Perché proprio 0.05? La risposta è scomoda: non c’è una ragione matematica profonda.
Ronald Fisher, padre della statistica frequentista, propose 0.05 come soglia conveniente in un libro del 1925, Statistical Methods for Research Workers. Non era un teorema. Era un’euristica pratica, basata sull’idea che due deviazioni standard (approssimativamente z = 1.96 in una normale) fossero un “buon benchmark” per decidere se un risultato meritasse ulteriore indagine.
Fisher stesso avvertì: “nessun ricercatore dovrebbe considerare una soglia fissa come un verdetto finale.” La comunità scientifica, tuttavia, ha trasformato quell’euristica in un muro di mattoni.
L’ASA Statement del 2016
Nel 2016, l’American Statistical Association ha pubblicato una dichiarazione storica — la prima nella sua storia — intitolata “The ASA’s Statement on p-Values: Context, Process, and Purpose” (Wasserstein & Lazar, 2016). Sei principi fondamentali:
-
I p-value possono indicare quanto i dati siano incompatibili con un modello specificato. Non quantificano la probabilità che l’ipotesi sia vera o che i dati siano prodotti dal caso.
-
I p-value non misurano la dimensione di un effetto o l’importanza di un risultato. Un p-value molto piccolo può accompagnare un effetto trascurabile se il campione è enorme.
-
Un p-value, da solo, non fornisce una misura della prova a favore di un’ipotesi. Prove bayesiane e rapporti di verosimiglianza offrono un quadro più completo.
-
Le decisioni scientifiche e commerciali non dovrebbero basarsi solo sul fatto che un p-value superi una soglia arbitraria. La soglia 0.05 non è una barriera magica.
-
Un p-value non dice nulla sulla replicabilità di un risultato. Un singolo p-value non quantifica la probabilità che un esperimento replicato dia lo stesso risultato.
-
Un p-value, da solo, non è una buona misura di evidenza. Dovrebbe essere accompagnato da effect size, intervalli di confidenza, e analisi di sensibilità.
Questa dichiarazione è importante perché arriva dalla più autorevole associazione statistica del mondo e rappresenta un autorevole ammonimento contro decenni di uso scorretto.
Il problema della soglia fissa nella pratica
Immagina di eseguire un test A/B su un pulsante di checkout. Con 100.000 utenti per variante, trovi un aumento della conversione dello 0.1% con p = 0.0499. “Significativo!” — esclami. Con 80.000 utenti per variante, lo stesso 0.1% dà p = 0.0501. “Non significativo.” La differenza tra lanciare e non lanciare è un centesimo di p — e quattro ore di traffico in più o in meno.
Questo è assurdo. Eppure è esattamente ciò che accade ogni giorno in migliaia di organizzazioni.
La soglia 0.05 ha senso solo come filtro iniziale, non come decisione finale. Un p-value di 0.051 non è qualitativamente diverso da uno di 0.049. Entrambi richiedono contesto: effect size, intervallo, guardrail, costo.
Effect size: il pezzo mancante
L’effect size risponde alla domanda: “di quanto è cambiata la metrica?” Non se il cambiamento è “reale” (lo fa il p-value), ma se è grande abbastanza da importare.
Le misure più comuni:
- Differenza assoluta: conversione variante — conversione controllo. Esempio: dal 3.2% al 3.5% = +0.3 punti percentuali.
- Differenza relativa: (var — ctrl) / ctrl. Esempio: +9.38%.
- Cohen’s d (per metriche continue): (media_var — media_ctrl) / deviazione standard pooled. Utile per confrontare effect size tra esperimenti diversi con scale diverse.
- Odds ratio / Risk ratio: usato per metriche binarie in contesti clinici e commerciali.
Perché l’effect size è più importante del p-value
Con un campione abbastanza grande, qualsiasi differenza — per quanto minuscola — diventa statisticamente significativa. Se testi un pulsante su 10 milioni di utenti, una differenza dello 0.01% può produrre p < 0.001. Ma 0.01% di conversione in più vale davvero lo sviluppo?
Viceversa, con un campione piccolo, un effetto enorme (es. +25% di conversione) può non raggiungere la significatività statistica. In questo caso il problema non è l’effetto — è la potenza del test.
Regola pratica: non guardare mai il p-value senza effect size. Prima la dimensione, poi la significatività. Se l’effect size è troppo piccolo per essere rilevante, il p-value è irrilevante.
Intervalli di confidenza: il range della verità
Un intervallo di confidenza al 95% ti dice: “se ripetessi questo esperimento molte volte, il 95% degli intervalli costruiti conterrebbe il vero valore dell’effetto.”
Attenzione: non dice che c’è il 95% di probabilità che il vero effetto sia dentro l’intervallo. Il vero effetto è un punto fisso (sconosciuto); l’intervallo è casuale. La frase corretta è: “il 95% degli intervalli contiene il parametro vero.”
Come leggere un intervallo di confidenza
Prendiamo un test A/B con questi risultati:
- Differenza assoluta: +2.1% nelle conversioni
- Intervallo di confidenza al 95%: [+0.8%, +3.4%]
- p-value: 0.002
Cosa ci dice l’intervallo:
- Il limite inferiore è positivo (+0.8%): anche nello scenario peggiore (entro il 95% di confidenza), la variante è migliore.
- L’ampiezza è 2.6 punti: c’è incertezza sull’entità esatta. L’effetto reale potrebbe essere +0.8% o +3.4%.
- Il limite inferiore è sopra la soglia di rilevanza business: se il minimo miglioramento che giustifica lo sviluppo è +0.5%, l’intervallo intero è sopra quella soglia → decisione robusta.
Se invece l’intervallo fosse [-0.3%, +4.5%] con lo stesso p = 0.002 (impossibile in senso stretto, ma serve per l’esempio), sapresti che l’effetto potrebbe essere negativo. Il p-value non ti dice che il risultato è “sicuro” — ti dice che è improbabile sotto H0. L’intervallo ti dice che potrebbe essere dannoso.
Caso concreto: test A/B su ecommerce
Immagina di lavorare per un ecommerce di medie dimensioni. Il team prodotto ha riprogettato la pagina di checkout per ridurre l’attrito. L’ipotesi: semplificare il form da 5 campi a 3 campi aumenterà il tasso di conversione.
Setup del test
- Metrica primaria: tasso di conversione da pagina checkout a acquisto completato
- Metriche secondarie: valore medio ordine (AOV), tasso di abbandono, errori in fase di pagamento
- Guardrail: tempo di caricamento pagina, tasso di errore tecnico
- Dimensione campione: 50.000 utenti per variante (calcolato per rilevare un effetto minimo dell’1% assoluto con power 80% e α 0.05)
- Durata: 14 giorni (un ciclo completo di acquisto settimanale x 2)
Risultati
Dopo 14 giorni, i dati sono:
| Metrica | Controllo | Variante | Differenza | p-value | IC 95% |
|---|---|---|---|---|---|
| Conversione | 4.2% | 4.8% | +0.6 pp | 0.003 | [+0.2, +1.0] |
| AOV | €52.30 | €51.80 | -€0.50 | 0.21 | [-1.30, +0.30] |
| Abbandono | 12.1% | 11.4% | -0.7 pp | 0.04 | [-1.4, -0.02] |
| Errori pagamento | 0.8% | 2.3% | +1.5 pp | <0.001 | [+1.1, +1.9] |
Analisi: lettura integrata
Prima reazione: p = 0.003 sulla conversione, p < 0.001 sugli errori. Entrambi “significativi”. Decisione? Non ancora.
Effect size: la conversione cresce dello 0.6% assoluto (+14.3% relativo). Su 100.000 visitatori mensili della pagina checkout, sono 600 acquisti in più al mese. Con un AOV di ~€52, il revenue incrementale è circa €31.200/mese. Interessante.
Intervallo di confidenza sulla conversione: [+0.2, +1.0]. Al minimo (+0.2%), sono 200 acquisti in più (€10.400/mese). Al massimo (+1.0%), sono 1.000 acquisti (€52.000/mese). Range ampio, ma anche la stima conservativa è positiva.
Guardrail: gli errori di pagamento sono triplicati (da 0.8% a 2.3%, p < 0.001). Ogni errore è un cliente che prova a pagare e non ci riesce — dannoso per l’esperienza utente e per il brand. L’IC [+1.1, +1.9] mostra che anche nello scenario migliore gli errori aumentano di oltre 1 punto percentuale.
AOV: calo di €0.50, non significativo (p = 0.21). Ma l’IC [-1.30, +0.30] include una possibile riduzione di €1.30 ad acquisto. Non ignorabile.
Decisione
Il nuovo checkout aumenta le conversioni ma triplica gli errori di pagamento e potrebbe ridurre l’AOV. Il guadagno netto è incerto: le conversioni extra potrebbero essere annullate da ordini persi per errori e da un valore medio più basso.
Decisione prudente: non lanciare in produzione. Estendere il test con un fix tecnico sugli errori di pagamento (probabilmente causati dalla nuova validazione dei campi), poi ri-testare. Se dopo il fix gli errori tornano ai livelli del controllo, allora rollout.
Nota: se avessimo guardato solo p-value sulla conversione (0.003), avremmo lanciato e causato un aumento degli errori di pagamento per settimane prima di accorgercene. I guardrail — e l’abitudine a leggere tutto il quadro — ci hanno salvati.
Template pratico per leggere i risultati di un test
Ecco uno schema che puoi applicare a qualsiasi risultato sperimentale. È pensato per essere compilato in 5-10 minuti durante una review di esperimento.
=== EXPERIMENT REVIEW MEMO ===
1. DATI BASE
- Test: [nome o descrizione]
- Metrica primaria: [nome, baseline, target minimo]
- Campione: [n. controllo, n. variante]
- Durata: [giorni, cicli completi]
2. RISULTATO PRIMARIO
- Differenza osservata: [assoluta e relativa]
- Effect size (Cohen's d o altra misura): [valore]
- p-value: [valore esatto, non solo soglia]
- IC 95%: [limite inf, limite sup]
- Il limite inferiore supera la soglia di rilevanza? [sì/no]
3. GUARDRAIL
- Metriche guardrail: [elenco]
- Peggioramenti significativi? [sì/no, specificare]
4. ERRORI E ROBUSTEZZA
- Rischio errore tipo 1 (α): [valore usato, tipicamente 0.05]
- Rischio errore tipo 2 (β): [valore, typ. 0.20]
- Power del test: [1 - β]
- Il test ha raggiunto la durata prevista? [sì/no]
- Peeking problem durante il test? [sì/no]
- Correzione per test multipli applicata? [sì/no]
5. IMPATTO BUSINESS
- Revenue incrementale stimato: [€/mese]
- Costo di implementazione: [€ una tantum + ricorrenti]
- Tempo di break-even: [mesi]
- Rischio operativo: [basso/medio/alto]
6. DECISIONE
- [ ] Rollout al 100%
- [ ] Rollout graduale (canary / % variabile)
- [ ] Estensione test (specificare condizioni)
- [ ] Iterazione / fix tecnico + ri-test
- [ ] Stop / abbandono
- Motivazione: [frase breve che lega punti 1-5 alla scelta]
7. NOTE
- Segmenti con effetto diverso? [es. mobile vs desktop, nuovo vs
returning]
- Stagionalità? [eventi esterni durante il test]
- Raccomandazioni per test successivi: [...]
Puoi copiare questo template in un Notion, Google Doc, o ticket Jira. Non è burocrazia — è la differenza tra una decisione informata e una scommessa.
P-value e replicabilità: l’illusione della scoperta
Un problema poco discusso ma cruciale: la scarsa replicabilità degli esperimenti con p-value borderline.
Uno studio di Goodman (1992) ha mostrato che un risultato con p = 0.05 ha circa il 50% di probabilità di essere replicato in un esperimento identico con la stessa potenza. Non il 95%. Il 50%.
Perché? Il p-value è una variabile casuale. Se l’effetto vero è appena sopra la soglia di rilevanza, il p-value oscillerà sopra e sotto 0.05 in replicazioni successive. Un valore di p = 0.04 non significa che sei “sicuro” — significa che il dado è caduto appena dalla parte giusta.
La lezione: non fidarti di un singolo esperimento con p-value appena sotto 0.05. Se l’effetto è reale e importante, replicherà in modo robusto. Se è un artefatto, la replicazione lo rivelerà.
Nel contesto aziendale, questo significa: prima di fare rollout al 100%, considera un secondo test (o un test di follow-up con una coorte diversa) se:
- p-value è tra 0.01 e 0.05
- L’effect size è piccolo
- Il test è stato eseguito su un solo segmento di utenti
Il peeking problem e la correzione di alpha
Un errore operativo comune è guardare i risultati ogni giorno e fermarsi appena il p-value scende sotto 0.05. Si chiama peeking ( sbirciare ) e distrugge la validità del test.
Ogni volta che calcoli un p-value, hai una probabilità α di falso positivo. Se guardi 10 volte, la probabilità di trovare almeno un falso positivo sale a circa 1 — (1 — 0.05)^10 = 40%. Più sbirci, più è probabile che tu veda un effetto che non esiste.
Soluzioni:
- Durata fissa: decidi la durata prima di iniziare e non guardare i risultati fino alla fine.
- Sequential testing: metodi come il mSPRT (confronto sequenziale di rapporti di verosimiglianza) permettono di guardare i dati continuamente senza inflazionare α.
- Correzione di Bonferroni o Holm: se guardi a intervalli predefiniti, correggi la soglia per il numero di sguardi.
- Bayesian A/B testing: usa distribuzioni posteriori invece di p-value, e aggiorna gradualmente senza problemi di peeking.
Potenza statistica: dimensiona prima di testare
La potenza statistica (power) è la probabilità di rilevare un effetto di una data dimensione, assumendo che esista. Senza power adeguato, il test è un esercizio di rumore.
Formula concettuale: power dipende da
- Dimensione dell’effetto (d): più grande è l’effetto, più facile rilevarlo.
- Dimensione del campione (n): più dati, più power.
- Livello di significatività (α): più alto è α, più power (ma più falsi positivi).
- Varianza (σ): più rumore nei dati, meno power.
Calcolo pratico: prima di lanciare un test, usa strumenti come
l’Experimentation Calculator di Evan Miller o il pacchetto statsmodels
di Python per calcolare il campione necessario.
import statsmodels.stats.api as sms
effect_size = sms.proportion_effectsize(0.042, 0.048) # baseline 4.2%, target 4.8%
n = sms.NormalIndPower().solve_power(
effect_size=effect_size,
power=0.80,
alpha=0.05,
alternative='two-sided'
)
print(f"Campione necessario per variante: {round(n)}")
Campioni tipici per A/B testing ecommerce: per rilevare un aumento dell’1% assoluto su una baseline del 5% con power 80%, servono circa 18.000 utenti per variante. Per lo 0.5% assoluto, ne servono circa 72.000. Per lo 0.1%, circa 1.800.000.
Più piccolo è l’effetto che vuoi rilevare, più grande deve essere il campione — e la relazione è quadratica. Raddoppiare la precisione richiede quadruplicare il campione.
P-value, effect size e intervallo: un esempio numerico
Vediamo tre scenari con lo stesso p-value ma interpretazioni radicalmente diverse.
| Scenario | p-value | Effect size | IC 95% | Baseline | Decisione |
|---|---|---|---|---|---|
| A | 0.01 | +0.2% | [+0.05, +0.35] | 5% | Solo se costo zero |
| B | 0.01 | +8.0% | [+2.5, +13.5] | 5% | Probabile rollout |
| C | 0.01 | -0.5% | [-0.8, -0.2] | 5% | Stop immediato |
Stesso p-value in tutti e tre. Decisioni opposte. Questo è il motivo per cui leggere solo p-value è come comprare una casa guardando solo il numero civico.
Nello scenario A, l’effetto è piccolo ma preciso (IC stretto). Il p-value dice “l’effetto esiste”, ma il business deve decidere se vale la pena.
Nello scenario B, l’IC è molto ampio [+2.5, +13.5] — l’effetto reale potrebbe essere 2.5% o 13.5%. Il test ha poca precisione nonostante la significatività. Serve più campione per stringere l’intervallo.
Nello scenario C, p-value significativo ma effetto negativo. Il test ha funzionato: ha rilevato che la variante è peggiore. Non è un fallimento del test, è evidenza utile.
Errori cognitivi nel leggere i risultati
La statistica è difficile anche perché il nostro cervello non è cablato per il ragionamento probabilistico. Ecco gli errori cognitivi più comuni nella lettura dei risultati sperimentali:
Confusione tra significatività statistica e importanza pratica. Un p-value piccolo non rende un effetto importante. Lo rende rilevabile. L’importanza la decide il business context.
Ancoraggio alla soglia. P = 0.049 → “vittoria”. P = 0.051 → “sconfitta”. La differenza è rumore, ma il cervello crede che la soglia separi due mondi qualitativamente diversi.
Asimmetria decisionale. Tendiamo a richiedere meno evidenza per lanciare cambiamenti che ci piacciono (bias di conferma) e più evidenza per fermarli. Il metodo scientifico è neutrale — il nostro cervello no.
Ignorare i guardrail. Quando vediamo una metrica primaria significativa, tendiamo a trascurare le metriche secondarie. L’errore di checkout nel caso ecommerce sopra ne è un esempio perfetto.
Sottostima del peeking problem. Guardare ogni giorno e fermarsi a p < 0.05 è così comune che molti team non lo considerano un errore. Lo è. Inflaziona il tasso di falso positivo in modo drammatico.
Riepilogo operativo
Il p-value è uno strumento, non un giudice. Misura la compatibilità dei dati con l’ipotesi nulla — niente di più, niente di meno.
Non usare mai il p-value da solo. Accompagnalo sempre con:
- Effect size — la dimensione del cambiamento, sia assoluta che relativa.
- Intervallo di confidenza — il range di effetti compatibili con i dati.
- Power e campione — il test era abbastanza grande per rilevare l’effetto che ti interessa?
- Guardrail — niente è peggiorato mentre una metrica migliorava?
- Costo e impatto business — l’effetto vale lo sviluppo?
Template mentale per ogni review:
- Errore tipo 1: “Sto per lanciare qualcosa che non funziona?”
- Errore tipo 2: “Sto per scartare qualcosa che funziona?”
- Effect size: “Quanto è grande il cambiamento?”
- Intervallo: “Qual è la forchetta possibile?”
- Decisione: “Alla luce di tutto, cosa facciamo?”
Un buon team non chiede solo se un risultato è statisticamente significativo. Chiede se è abbastanza utile e affidabile da cambiare il prodotto.
La prossima volta che qualcuno in una review esclama “p < 0.05!”, fermati un attimo e chiedi: “E l’effect size? E l’intervallo? E i guardrail?” La qualità delle decisioni del tuo team crescerà istantaneamente.
Problema reale
Nel dominio di experiment science, P-value, errori e interpretazione corretta serve a risolvere questo problema: decidere con esperimenti robusti senza abusare di p-value, peeking o letture casuali del rumore. La lezione non va trattata come teoria isolata, ma come un modo per migliorare una scelta concreta con dati, assunzioni esplicite e controlli minimi.
Obiettivo operativo: Comprendere il problema analitico e il contesto decisionale; Applicare esempi, metriche e controlli a casi reali. Se alla fine non sai indicare quale decisione cambia, quale dato osservi e quale errore vuoi evitare, la lezione non è ancora diventata competenza applicata.
Modello concettuale
| Fase | Cosa chiarire | Output |
|---|---|---|
| Domanda | Quale scelta reale deve migliorare? | Decisione da prendere |
| Misura | Quale segnale osservabile rappresenta il problema? | Metrica o dato sorgente |
| Controllo | Quale baseline rende il risultato interpretabile? | Confronto credibile |
| Azione | Che cosa cambia dopo l’analisi? | Prossimo passo operativo |
Il modello concettuale è intenzionalmente semplice: decisione, dato, controllo, azione. Ogni approfondimento tecnico deve rafforzare almeno uno di questi quattro punti.
Formalizzazione rigorosa
Per rendere P-value, errori e interpretazione corretta analizzabile, definisci prima l’unità di lavoro: unità sperimentale, metrica, variante, campione o effetto. Poi collega questa unità a una metrica osservabile: MDE, potenza, intervallo, errore, varianza e rischio business. Infine dichiara la decisione attesa: disegno esperimento, calcolo potenza, analisi o decision memo.
| Elemento | Specifica richiesta |
|---|---|
| Unità di analisi | unità sperimentale, metrica, variante, campione o effetto |
| Segnale principale | MDE, potenza, intervallo, errore, varianza e rischio business |
| Baseline | Periodo precedente, gruppo comparabile, benchmark o scenario controfattuale |
| Decisione | disegno esperimento, calcolo potenza, analisi o decision memo |
| Rischio | Scambiare un numero disponibile per una prova sufficiente |
La formalizzazione e solida quando un altro analista può riprodurre la logica, criticare le assunzioni e ottenere la stessa decisione partendo dagli stessi dati.
Esempio o caso studio
Un test produce p = 0,04 e il team vuole dichiarare vittoria, ma l’effetto è minuscolo, il test è stato guardato più volte e la metrica secondaria peggiora. Il caso mostra perché interpretare il p-value richiede contesto, non solo confronto con 0,05.
| Evidenza osservata | Lettura prudente | Azione consigliata |
|---|---|---|
| Il numero migliora | Potrebbe essere effetto reale o variazione normale | Cercare confronto e segmento |
| Un segmento cambia più degli altri | La media aggregata nasconde una differenza | Separare coorti o casi d’uso |
| Il costo cresce insieme al risultato | L’impatto va letto sul margine | Stimare trade-off e sostenibilità |
Lab / esercizio
Livello base
Scrivi una scheda di una pagina per P-value, errori e interpretazione corretta: decisione da supportare, metrica primaria, baseline, rischio principale e azione se il segnale e confermato.
Livello intermedio
Costruisci una tabella con tre segmenti, periodi o scenari. Per ciascuno indica cosa cambia, quale spiegazione alternativa e plausibile e quale controllo useresti prima di raccomandare un azione.
Livello research-grade
Prepara un decision memo: ipotesi, dati richiesti, criteri di esclusione, controlli di qualità, soglia decisionale, rischio residuo e piano di monitoraggio dopo la decisione.
Dataset e materiali consigliati
Usa A/B test, A/A test, log esperimenti, metriche prodotto, simulatori e dataset sintetici. Se non hai accesso a dati reali, crea un dataset sintetico con almeno 200 righe, una dimensione temporale, una dimensione segmento e una metrica di outcome.
Errore tipico da evitare
L’errore più comune e usare P-value, errori e interpretazione corretta come etichetta invece che come processo. Succede quando il team mostra un grafico senza decisione, una metrica senza baseline, o una conclusione senza indicare quale assunzione potrebbe invalidarla.
La domanda di controllo è: se questo risultato fosse instabile, quale scelta sbaglierei? Se la risposta non è concreta, manca ancora il collegamento tra analisi e azione.
Quiz o checkpoint
- Quale decisione concreta dovrebbe migliorare questa lezione?
- Quale unità di analisi rende il problema misurabile?
- Quale baseline useresti per evitare una lettura ingenua?
- Quale errore tipico potrebbe cambiare la conclusione?
- Quale output consegneresti a uno stakeholder non tecnico?
Riepilogo operativo
P-value, errori e interpretazione corretta diventa utile quando produce una decisione più chiara, non quando aggiunge terminologia. Usa il framework problema, modello, formalizzazione, esempio, lab e checkpoint per trasformare la lezione in pratica verificabile. Categoria: Statistica Applicata. Difficoltà: intermediate. Tempo stimato: 18 min.
Percorso collegato
Lezioni da leggere insieme
Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.