A/A test e validazione del sistema di misura
A/A test e validazione del sistema di misura. Lezione core del modulo Significativita Statistica, A/B Testing e Experimentation Science con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.
Cosa imparerai
- Comprendere il problema analitico e il contesto decisionale
- Applicare esempi, metriche e controlli a casi reali
A/A test e validazione del sistema di misura
Prima di fidarti di un A/B test devi sapere se la piattaforma misura correttamente quando non c’è nessuna differenza reale. A/A test e validazione del sistema di misura parte da qui: se due gruppi identici producono falsi allarmi, ogni decisione sperimentale successiva eredita quel rischio.
Una scena da cui partire
Leggi questa lezione come collaudo del sistema, non come esercizio statistico. L’A/A test serve a controllare randomizzazione, logging, metriche e pipeline prima che un falso positivo diventi roadmap.
- Contesto: Quale decisione rende utile il concetto?
- Metodo: Quale conflitto tra team o metriche devi anticipare?
- Applicazione: Quale frase useresti per spiegarlo in riunione?
Problema reale
Nel 2019, un team di Microsoft Analysis & Experimentation pubblico un’analisi che fece il giro delle piattaforme di experimentation: circa un terzo degli A/A test interni, eseguiti su sistemi di produzione reale, mostrava un tasso di falsi positivi superiore al 5% atteso. Non era un errore di calcolo. Era un problema di infrastruttura. Il sistema di randomizzazione, la pipeline di raccolta dati o le metriche aggregate avevano un bias strutturale che faceva sembrare significative differenze che in realtà non esistevano.
Il problema reale che questa lezione affronta e semplice nella formulazione ma devastante nelle conseguenze: se non validi il sistema di misura, non puoi fidarti di nessun esperimento.
Un’azienda di e-commerce spende centomila euro per lanciare un test su una nuova feature di checkout. Dopo due settimane, il test mostra un incremento del 3% nel tasso di conversione, p-value 0.03, significatività dichiarata. Il team celebra, deploya la feature, sposta budget. Tre mesi dopo, le metriche di business non sono cambiate. Il test era un falso positivo, ma nessuno lo sapeva perché l’infrastruttura non era mai stata validata con un A/A test.
Il costo non sta nel falso positivo in se. Il costo sta nelle decisioni sbagliate prese sulla base di quel risultato: priorità cambiate, risorse spostate, roadmap alterate, fiducia erosa. Una volta che il sistema ha prodotto risultati inaffidabili, ogni esperimento successivo eredita quel dubbio.
Le aziende che hanno adottato la validazione sistematica con A/A test — Microsoft, Netflix, Spotify, Uber, Airbnb — lo fanno per una ragione precisa: hanno imparato che l’infrastruttura sperimentale e un sistema complesso che si rompe in modi imprevedibili, e che l’unico modo per verificare che funzioni e testare che non trovi differenze quando non ce ne sono.
Il caso Microsoft: la lezione dei falsi positivi reali
Microsoft gestisce una delle piattaforme di experimentation più grandi al mondo, con centinaia di esperimenti simultanei su Bing, Office, Azure e altri prodotti. Il team di analisi ha documentato pubblicamente l’esperienza con gli A/A test in un paper del 2019 (“Online Controlled Experiments at Scale” di Kohavi, Tang e Xu).
La scoperta chiave fu questa: molti A/A test di produzione mostravano un tasso di “significatività” molto superiore al 5%. In alcuni casi, fino al 15-20% degli A/A test risultava statisticamente significativo a p < 0.05. Questo significava che il sistema aveva un tasso di falsi positivi tre o quattro volte superiore a quello atteso.
Le cause erano molteplici:
- Hash bucket randomization difettosa: l’algoritmo che assegnava gli utenti ai gruppi di test non era perfettamente uniforme, causando squilibri sistematici nelle dimensioni dei gruppi.
- Data pipeline latency: i dati di alcuni utenti arrivavano con ritardo, e il sistema di aggregazione li escludeva in modo asimmetrico tra i gruppi.
- Time-zone effects: la finestra temporale di analisi tagliava i dati in modo diverso per utenti in fusi orari diversi, creando differenze sistematiche nelle metriche giornaliere.
Microsoft risolse il problema introducendo una fase obbligatoria di A/A test prima di qualsiasi esperimento su larga scala. Oggi, ogni nuovo sistema di randomizzazione o modifica alla pipeline di dati deve superare una batteria di almeno 100 A/A test prima di essere considerato affidabile per esperimenti di produzione.
Questo caso mostra un principio fondamentale: la validazione non è un optional. E un prerequisito. Se Microsoft — con decenni di esperienza e centinaia di ingegneri dedicati all’experimentation — ha scoperto problemi sistematici nei propri A/A test, ogni organizzazione deve aspettarsi di trovarne di simili.
Modello concettuale
L’A/A test si basa su un’idea controintuitiva: per verificare che il sistema di misura funzioni, esegui un esperimento in cui sai già che non c’e nessuna differenza da trovare. Se il sistema e corretto, trovera differenze significative solo il 5% delle volte (perché questo e il tasso di falsi positivi che accettiamo con un alpha di 0.05). Se il sistema trova differenze significative molto più spesso — o molto meno spesso — qualcosa non va.
Il modello concettuale poggia su tre pilastri.
Primo pilastro: la randomizzazione come fondamento. La randomizzazione e il cuore di ogni esperimento. Se il processo di assegnazione non è veramente casuale, il confronto tra i gruppi e invalido. L’A/A test verifica esattamente questo: che la randomizzazione sia uniforme, che i gruppi abbiano la stessa dimensione attesa (entro la varianza campionaria), e che non ci siano pattern sistematici nell’assegnazione.
Secondo pilastro: la distribuzione attesa del p-value sotto l’ipotesi nulla. Se l’ipotesi nulla e vera (non c’e differenza tra i gruppi) e tutte le assunzioni statistiche sono rispettate, il p-value segue una distribuzione uniforme tra 0 e 1. Questo significa che, su 100 A/A test, ci aspettiamo circa 5 test con p-value < 0.05. Se ne osserviamo 15 o 20, la distribuzione non è uniforme, e il sistema ha un problema. Se ne osserviamo 0 o 1, potrebbe esserci un problema opposto: il sistema e troppo conservativo e potrebbe non rilevare effetti reali.
Terzo pilastro: l’indipendenza degli esperimenti. Ogni A/A test dovrebbe essere indipendente dagli altri. Se esegui 100 A/A test sullo stesso set di dati riutilizzando le stesse osservazioni, i risultati non sono indipendenti e la distribuzione del p-value non è più uniforme. Questo e un errore comune: eseguire molti A/A test sulla stessa popolazione senza reinizializzare la randomizzazione, ottenendo una falsa impressione di affidabilità.
Frequenza attesa dei falsi positivi: il 5% come termine di paragone
Il 5% non è un numero magico. E il tasso di errore di Tipo I che il ricercatore sceglie quando imposta il livello di significatività alpha = 0.05. In un A/A test, dove l’ipotesi nulla e vera per costruzione, ogni risultato “significativo” e per definizione un falso positivo.
| Numero di A/A test | Falsi positivi attesi (5%) | Intervallo di confidenza 95% |
|---|---|---|
| 10 | 0.5 | 0 - 3 |
| 50 | 2.5 | 1 - 6 |
| 100 | 5.0 | 2 - 10 |
| 500 | 25.0 | 17 - 34 |
| 1000 | 50.0 | 38 - 63 |
La tabella mostra un pattern importante: con pochi A/A test (10), e difficile distinguere un sistema rotto da un sistema funzionante perché l’intervallo di confidenza e ampio. Con 100 test, una deviazione oltre 10 falsi positivi e un forte segnale di problema. Con 1000 test, puoi stimare il tasso di falsi positivi con precisione subpercentuale.
Nella pratica, la soglia di allarme dipende dal contesto. Microsoft consiglia di eseguire almeno 100 A/A test e di considerare un sistema “fallito” se il tasso di falsi positivi supera il 7-8% (significativamente sopra il 5% atteso). Netflix nei suoi blog post tecnici suggerisce una soglia simile: se più del 7% degli A/A test e significativo, la pipeline di dati va rivista prima di procedere con esperimenti di produzione.
Formalizzazione rigorosa
L’A/A test si formalizza come un test di ipotesi in cui l’ipotesi nulla H0 e che non ci sia differenza tra i due gruppi A e A. La statistica test dipende dalla metrica scelta: per una metrica binaria (tasso di conversione), si usa tipicamente un test chi-quadrato o un test z per proporzioni; per una metrica continua (tempo medio sulla pagina, valore medio dell’ordine), si usa un t-test a due campioni.
Il test chi-quadrato per SRM. Il Sample Ratio Mismatch (SRM) e una delle verifiche più importanti in un A/A test. Misura se la proporzione di utenti assegnati a ciascun gruppo e diversa da quella attesa (tipicamente 50:50). Si calcola come:
chi-quadrato = somma per ogni gruppo di (osservato - atteso)^2 / atteso
Per un test con due gruppi e 1 grado di liberta, il valore critico a alpha = 0.05 e 3.841. Un chi-quadrato superiore a 3.841 indica che la distribuzione degli utenti tra i gruppi e significativamente diversa da quella attesa.
| Metriche chiave | Definizione | Soglia di allarme |
|---|---|---|
| Tasso di falsi positivi (FPR) | % di A/A test con p-value < alpha | > 7% su 100+ test |
| Distribuzione p-value | Uniforme tra 0 e 1 sotto H0 vera | Test di Kolmogorov-Smirnov vs uniforme |
| Sample Ratio Mismatch (SRM) | Deviazione dalla proporzione attesa 50:50 | chi-quadrato > 3.841 (p < 0.05) |
| Differenza media standardizzata | Effect size tra i due gruppi A | Idealmente vicino a 0; D > 0.1 come warning |
Distribuzione uniforme del p-value. Il test più potente per validare un sistema e guardare la distribuzione dei p-value su molti A/A test. Sotto l’ipotesi nulla, i p-value dovrebbero essere distribuiti uniformemente tra 0 e 1. Puoi verificarlo con:
- Un istogramma dei p-value diviso in 20 bin (da 0-0.05, 0.05-0.10, …, 0.95-1.00). Sotto uniformita, ogni bin contiene circa il 5% dei p-value.
- Un test di Kolmogorov-Smirnov a un campione per confrontare la distribuzione empirica con quella uniforme.
- Un Q-Q plot dei p-value contro i quantili teorici della distribuzione uniforme.
Se l’istogramma mostra un picco nel bin 0-0.05 (più del 7-8% dei valori), il sistema produce troppi falsi positivi. Se mostra un picco nel bin 0.95-1.00, il sistema e troppo conservativo. Entrambi sono problemi che vanno risolti prima di procedere.
Limiti degli A/A test
Nessuno strumento e perfetto, e gli A/A test hanno limiti importanti che ogni practitioner deve conoscere.
Sample Ratio Mismatch (SRM). Lo SRM e il limite più noto e più pericoloso. Si verifica quando la proporzione di utenti nei due gruppi devia significativamente dal rapporto atteso. Le cause possono essere banali (un bug nel codice di randomizzazione, un cookie che viene cancellato e riassegnato, un utente che appare in entrambi i gruppi per un errore di deduplicazione) o sottili (diversa latenza di caricamento tra le pagine dei due gruppi che altera il tasso di abbandono prima della registrazione).
Lo SRM e particolarmente insidioso perché non sempre si accompagna a differenze significative nelle metriche. Un sistema con SRM può comunque mostrare un tasso di falsi positivi vicino al 5%, dando una falsa sensazione di sicurezza. Per questo, la verifica dello SRM dovrebbe essere un controllo separato e obbligatorio in ogni A/A test, non solo una metrica tra le altre.
Esistono due tipi di SRM:
- SRM meccanico: la proporzione osservata si discosta da quella attesa per un errore misurabile (es. il codice assegna il 48% al gruppo A e il 52% al gruppo B invece del 50-50). Questo e rilevabile con un singolo A/A test.
- SRM condizionale: la proporzione e corretta in media, ma e distorta in sottogruppi specifici (es. il gruppo A ha più utenti mobile che desktop). Questo richiede A/A test multipli con segmentazioni diverse per essere scoperto.
Potenza statistica limitata. Un A/A test ha tipicamente la stessa dimensione campionaria di un A/B test, ma il suo scopo non è rilevare un effetto: e verificare che non ci siano effetti quando non dovrebbero essercene. Questo significa che un singolo A/A test ha poca potenza per rilevare problemi piccoli ma sistematici. Ecco perché servono molti A/A test (almeno 50-100) per ottenere una validazione affidabile.
Problemi che un A/A test non scopre. Ci sono problemi che un A/A test non può rilevare perché sono indipendenti dalla randomizzazione:
- Errori sistematici nel tracciamento che colpiscono entrambi i gruppi allo stesso modo (es. un pixel di conversione non funzionante).
- Bias di selezione nel campione (es. l’esperimento include solo utenti che hanno accettato i cookie, e questi utenti non sono rappresentativi della popolazione).
- Problemi di validita esterna (es. l’effetto misurato nell’esperimento non si generalizza alla popolazione reale).
- Violazioni dell’assunzione SUTVA (Stable Unit Treatment Value Assumption), come effetti di rete o spillover tra gruppi.
L’illusione della calibrazione perfetta. Un’altra limitazione e che un sistema che supera gli A/A test oggi potrebbe non superarli domani. L’infrastruttura sperimentale si degrada nel tempo: nuovi bucket di randomizzazione, modifiche alla pipeline di dati, cambiamenti nel traffico utente, aggiornamenti alla strumentazione. Per questo, la validazione con A/A test non è un evento una tantum, ma un processo continuo.
Esempio o caso studio
Netflix: A/A test come gate di qualità della piattaforma sperimentale
Netflix e un’altra azienda che ha reso pubblica la propria esperienza con gli A/A test attraverso blog post tecnici e presentazioni a conferenze di experimentation. La piattaforma di test di Netflix assegna gli utenti a diversi esperimenti usando un sistema di hash bucket basato sull’ID dell’account. Quando il team ha iniziato a validare il sistema con A/A test sistematici, ha scoperto un problema inaspettato.
Alcuni A/A test mostravano differenze significative nel tasso di riproduzione video (play rate) tra due gruppi che, per costruzione, erano identici. Dopo settimane di debugging, il team scopri che il sistema di content delivery network (CDN) utilizzava una cache separata per ogni bucket di randomizzazione. Il gruppo A e il gruppo B, pur ricevendo la stessa interfaccia, caricavano i video da server CDN diversi. Un CDN era leggermente più veloce dell’altro, e questa differenza di latenza — infinitesima, dell’ordine di millisecondi — produceva un tasso di abbandono leggermente diverso prima dell’avvio della riproduzione, che a sua volta si traduceva in una differenza statisticamente significativa nel play rate.
Il problema non era nella randomizzazione, nel tracciamento o nelle metriche. Era nell’infrastruttura di distribuzione dei contenuti, che Netflix non aveva considerato come potenziale confondente. L’A/A test lo rivelo perché mise in luce una differenza che non avrebbe dovuto esistere.
La lezione di Netflix: l’infrastruttura sperimentale non è solo il codice che assegna gli utenti ai gruppi. E l’intero stack tecnologico che separa l’esperienza dei due gruppi, dalla rete al frontend al backend. Qualsiasi differenza in questo stack — un server diverso, una cache diversa, una latenza diversa — può produrre un falso positivo.
Procedura standardizzata per un A/A test
Ecco un template operativo, basato sulle pratiche documentate da Microsoft, Netflix e Airbnb, che puoi adattare al tuo contesto.
Fase 1: Preparazione
- Scegli una metrica primaria rilevante per il tuo dominio (tasso di conversione, tempo sulla pagina, retention, revenue per user).
- Determina la dimensione campionaria necessaria (almeno 10.000 osservazioni per gruppo per avere potenza sufficiente a rilevare SRM moderati).
- Prepara la segmentazione: per dispositivo (mobile, desktop, tablet), per browser, per paese, per canale di acquisizione.
- Documenta lo stato del sistema: versione del software di randomizzazione, pipeline di dati, data di inizio.
Fase 2: Esecuzione
- Lancia l’esperimento con randomizzazione 50:50 e nessuna differenza tra i gruppi.
- Monitora in tempo reale: le proporzioni di assegnazione devono rimanere vicine al 50:50 (con margine di errore campionario).
- Registra tutte le anomalie: picchi di traffico, downtime, deploy simultanei, cambi di configurazione.
- Non fermare l’esperimento prima del tempo pianificato.
Fase 3: Analisi
- Calcola il chi-quadrato per lo SRM sulla proporzione di utenti in ciascun gruppo.
- Esegui il test statistico sulla metrica primaria (t-test, chi-quadrato o test di Mann-Whitney a seconda della distribuzione).
- Ripeti per ogni segmento predefinito (dispositivo, browser, paese).
- Registra p-value, effect size e intervallo di confidenza.
- Se p < 0.05: il test e “significativo”. Registralo come falso positivo atteso (1 su 20) se e un caso isolato. Se e uno di molti, allarme.
- Se p >= 0.05: il test e “non significativo”. Questo e il risultato atteso per un A/A test. Non significa che il sistema sia perfetto, solo che questo specifico test non ha trovato problemi.
Fase 4: Validazione aggregata
- Dopo 50-100 A/A test, costruisci l’istogramma dei p-value.
- Esegui un test di Kolmogorov-Smirnov contro la distribuzione uniforme.
- Calcola il tasso di falsi positivi osservato (percentuale di test con p < 0.05).
- Se il tasso e tra il 3% e il 7% e la distribuzione e approssimativamente uniforme: il sistema e validato.
- Se il tasso supera l’8% o la distribuzione non è uniforme: blocca gli esperimenti di produzione e investiga.
Template checklist per A/A test
| Fase | Attività | Esito |
|---|---|---|
| Preparazione | Metrica primaria definita | SI/NO |
| Preparazione | N campionario >= 10.000 per gruppo | SI/NO |
| Preparazione | Segmenti predefiniti (3-5 dimensioni) | SI/NO |
| Esecuzione | Randomizzazione 50:50 verificata in tempo reale | SI/NO |
| Esecuzione | Anomalie registrate nel log di esperimento | SI/NO |
| Analisi | Test SRM (chi-quadrato) su proporzioni | p-value: ___ |
| Analisi | Test metrica primaria | p-value: ___ |
| Analisi | Test per ogni segmento predefinito | N. significativi: ___ |
| Validazione | Istogramma p-value su 50+ test | Uniforme? SI/NO |
| Validazione | FPR osservato | ___% (soglia: 3-7%) |
| Decisione | Sistema validato per produzione? | SI/NO |
Esempio pratico di analisi
Immagina di eseguire 100 A/A test sulla tua piattaforma di e-commerce. La metrica primaria e il tasso di conversione. Ottieni questi risultati:
- SRM: 3 test su 100 mostrano un chi-quadrato > 3.841. Questo e nella norma (ci aspettiamo circa 5).
- Falsi positivi sulla metrica: 8 test su 100 hanno p < 0.05. Il tasso osservato e dell’8%.
- Distribuzione dei p-value: l’istogramma mostra un picco anomalo nel bin 0-0.05 (8 valori) e una leggera carenza nel bin 0.50-0.55 (solo 2 valori).
Con 100 test, 8 falsi positivi non sono drammaticamente lontani dal valore atteso di 5. L’intervallo di confidenza al 95% per il numero di falsi positivi e circa 2-10. Quindi 8 e dentro l’intervallo. Tuttavia, se il pattern persiste o peggiora con altri 100 test, e il momento di investigare. La decisione giusta in questo caso e: procedere con gli esperimenti di produzione ma intensificare il monitoraggio, aggiungendo un A/A test ogni 10 A/B test come controllo continuo.
Lab / esercizio
Livello base: Prendi un dataset di un A/B test reale o simulato con almeno 10.000 osservazioni per gruppo. Assegna casualmente le osservazioni a due gruppi (A e A) ignorando il trattamento originale. Esegui un test chi-quadrato per verificare se la proporzione di osservazioni nei due gruppi e significativamente diversa da 50:50. Poi esegui un t-test sulla metrica principale. Il risultato e significativo? Se si, e un falso positivo atteso (1 su 20) o un segnale di problema?
Livello intermedio: Simula 100 A/A test indipendenti, ciascuno con 10.000 osservazioni per gruppo, usando una popolazione in cui non c’e differenza reale tra i gruppi. Per ogni test, registra il p-value. Costruisci un istogramma dei p-value con 20 bin (0-0.05, 0.05-0.10, …, 0.95-1.00). Quanti test cadono nel primo bin (p < 0.05)? La distribuzione e uniforme? Ora introduci un piccolo SRM (es. 49.5:50.5 invece di 50:50) e ripeti l’esercizio. La distribuzione dei p-value cambia? Il test di Kolmogorov-Smirnov lo rileva?
Livello research-grade: Prendi un vero dataset di esperimento dalla tua organizzazione (o usa un dataset pubblico come il “Online Experimentation Dataset” di Microsoft). Progetta un protocollo di validazione che includa: (1) 100 A/A test con randomizzazione reale, (2) 100 A/A test con randomizzazione permutata (bootstrap delle etichette dei gruppi), (3) test di uniformita della distribuzione dei p-value per entrambi. Confronta i risultati: ci sono differenze tra randomizzazione reale e permutata? Questo confronto rivela problemi nell’implementazione della randomizzazione che un singolo test non mostrerebbe? Scrivi un breve report (300-500 parole) che descriva la procedura, i risultati e la raccomandazione finale per il team.
Dataset e materiali consigliati: Per questo esercizio puoi usare dati sintetici generati con Python (numpy.random per la simulazione) o R. Un notebook di esempio e disponibile nel pacchetto di lavoro del modulo. Troverai anche una funzione pre-scritta per il test di uniformita di Kolmogorov-Smirnov e un template per il report di validazione.
Errore tipico da evitare
L’errore più comune e il più subdolo: eseguire un singolo A/A test, vedere p > 0.05, e dichiarare il sistema validato.
Un A/A test non significativo non dimostra che il sistema funzioni. Dimostra solo che, in quel singolo test, non è stata trovata una differenza significativa. Con alpha = 0.05, c’e il 95% di probabilità che un A/A test singolo sia non significativo anche se il sistema e perfettamente funzionante. Ma se il sistema e rotto in modo lieve (es. SRM dell’1%), anche in quel caso un singolo test potrebbe non rilevarlo per mancanza di potenza.
La validazione richiede molteplici A/A test. Cento e il numero minimo raccomandato dalla letteratura. Con 100 test, la potenza di rilevare un SRM dell’1% sale a circa l’80%, e la distribuzione dei p-value diventa un test informativo sulla calibrazione del sistema.
Il secondo errore frequente e confondere l’assenza di significatività statistica con l’assenza di un problema pratico. Un A/A test che mostra un effect size piccolo ma non significativo (es. differenza dello 0.1% con p = 0.12) potrebbe comunque essere sintomo di un problema sistematico, soprattutto se il pattern si ripete in test successivi. Non aspettare che il p-value scenda sotto 0.05 per preoccuparti: guarda la direzione e la consistenza dell’effetto.
Il terzo errore e non segmentare. Un A/A test può essere non significativo sulla popolazione complessiva ma mostrare differenze sistematiche in sottogruppi (es. il gruppo A ha sistematicamente più utenti desktop, e gli utenti desktop convertono a un tasso diverso). La segmentazione per dispositivo, browser e paese dovrebbe essere parte integrante di ogni A/A test.
Quiz o checkpoint
- Perché un singolo A/A test non basta per validare il sistema di misura? Quanti test sono considerati il minimo raccomandato?
- Descrivi il Sample Ratio Mismatch (SRM). Quale test statistico usi per rilevarlo e qual e la soglia di allarme?
- Netflix ha scoperto un problema nei propri A/A test legato all’infrastruttura CDN. Perché un problema di latenza della rete di distribuzione dei contenuti può produrre un falso positivo in un A/A test?
- Se esegui 200 A/A test e ne trovi 14 con p < 0.05 (7%), il sistema e affidabile o no? Come giustifichi la risposta?
- Quali problemi un A/A test non può scoprire, indipendentemente da quanti ne esegui?
Riepilogo operativo
L’A/A test non è un esercizio accademico: è la prima linea di difesa contro decisioni basate su infrastrutture sperimentali non affidabili. Portalo nel lavoro quotidiano con questa mentalità:
- Non fidarti di nessun A/B test se la tua infrastruttura non ha superato una batteria di A/A test. La validazione e un prerequisito, non un optional.
- Il 5% di falsi positivi e il termine di paragone, non un obiettivo da raggiungere a ogni costo. Su 100 A/A test, aspettati circa 5 risultati “significativi”. Se ne vedi molti di più (oltre l’8%), c’e un problema sistematico.
- Lo SRM e il nemico silenzioso. Verifica sempre la proporzione di utenti in ciascun gruppo con un test chi-quadrato, anche se le metriche sembrano a posto.
- La validazione e un processo continuo. Non validare una volta sola. Esegui A/A test periodicamente e ogni volta che modifichi l’infrastruttura di randomizzazione, raccolta dati o calcolo delle metriche.
- Usa il template di procedura come checklist operativa per ogni validazione. Adattalo al tuo contesto ma non saltare i passaggi.
Percorso collegato
Lezioni da leggere insieme
Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.