Legge dei grandi numeri e CLT - immagine ufficiale della lezione su GinnyTech

Legge dei grandi numeri e teorema del limite centrale

I due teoremi fondamentali che giustificano tutta l'inferenza statistica.

Creato daAndrii Dyshkantiuk

Lezione 157 / 236Livello: AvanzatoDurata: 22 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

Stima, errore standard e intervalli di confidenza

import pandas as pd

Legge dei grandi numeri e teorema del limite centrale

Un esperimento parte bene: nei primi due giorni la variante nuova sembra vincere e il team è tentato di chiudere subito e spedire. Poi arrivano altri utenti, la stima si muove, l’effetto si riduce e il grafico racconta una storia meno spettacolare ma più vera. La legge dei grandi numeri e il teorema del limite centrale servono a dare disciplina a questo momento. Ti ricordano che un campione piccolo può raccontare una storia rumorosa, mentre un campione più ampio rende la stima più stabile e leggibile. Il punto non è memorizzare due teoremi, ma capire quando una stima inizia a meritare fiducia e quando è ancora solo rumore organizzato.

Quando fidarsi di un numero provvisorio

Questa lezione va letta pensando a tutte le volte in cui un numero provvisorio viene trattato come una verità. La domanda di fondo è quanti dati servono prima di discutere una decisione, come cambia la stabilità della stima al crescere del campione, e quale rischio eviti aspettando evidenza sufficiente. La categoria è tecnica, ma l’obiettivo resta decisionale: capire quale scelta cambia quando il dato diventa più affidabile.

Una sequenza di lavoro tiene insieme i due teoremi. Prima si chiarisce quale decisione deve migliorare, poi quale segnale osservabile riduce l’incertezza, rispetto a quale baseline lo si legge, cosa può falsare la lettura e quale azione segue. Ogni passaggio rende più chiaro il costo di una decisione presa troppo presto.

Legge dei grandi numeri (LLN)

Versione debole: per ogni ε >0, P(|x̄ₙ - μ| > ε) → 0 quando n → ∞.

In italiano: la probabilità che la media campionaria sia lontana dalla media vera va a zero all’aumentare del campione. Quello che la legge garantisce è che, con abbastanza dati, la tua stima è accurata. Quello che non garantisce è quanti dati ti servono. La convergenza può essere lentissima, e se la distribuzione ha varianza infinita (per esempio una power law con α < 2) la LLN non vale nemmeno.

C’è un caso in cui la legge sembra mentire. Se misuri il revenue medio per cliente su 1 milione di clienti e la distribuzione è una power law, la media campionaria può essere dominata da pochi outlier. Aggiungendo più clienti la media non converge a nulla di stabile, perché ogni nuovo whale cliente la sposta drasticamente. La soluzione è usare la mediana o statistiche robuste, non la media.

Teorema del limite centrale (CLT)

Sia X₁, X₂, …, Xₙ i.i.d. con media μ e varianza σ² finita. Allora:

√n·(x̄ₙ - μ)/σ → N(0,1) in distribuzione.

In italiano: la media campionaria standardizzata converge a una normale standard. Le condizioni sono indipendenza e varianza finita. Se manca una delle due, il CLT non si applica.

Le violazioni sono frequenti in analisi dati. La prima è la dipendenza temporale: transazioni consecutive sono correlate e la varianza stimata risulta sbagliata. La seconda è la varianza infinita, tipica delle distribuzioni a coda pesante come revenue e dimensione di un trade, dove il CLT non tiene. La terza è avere campioni troppo piccoli per la distribuzione: per una binomiale con p=0.001 servono molte migliaia di osservazioni prima che l’approssimazione normale sia decente.

Quando il CLT fallisce: il Value at Risk

Il Value at Risk nelle banche assume, via CLT, che i rendimenti siano normalmente distribuiti. Ma i rendimenti finanziari hanno code pesanti, come ha insegnato Taleb. Eventi a “6 sigma” accadono molto più spesso di quanto la normale preveda, e quando accadono i modelli basati sul CLT crollano. È successo nel 1998 con LTCM, nel 2008 con la crisi subprime, e succederà ancora. Prima di usare test basati sulla normale conviene quindi chiedersi se i dati hanno varianza finita e se sono indipendenti. Se la risposta a una delle due è “non lo so”, il CLT potrebbe non salvarti.

Riferimenti:

Feller, W. (1971). An Introduction to Probability Theory and Its Applications, Vol. 2. Wiley.
Embrechts, P., Klüppelberg, C. & Mikosch, T. (1997). Modelling Extremal Events. Springer.

Leggere i due teoremi come parte di un sistema

In un progetto reale questi teoremi non vivono mai isolati. Sono parte di un sistema più ampio fatto di decisioni, dati disponibili, vincoli tecnici, incentivi organizzativi e qualità dell’esecuzione. Il rischio dell’analista principiante è trattare il tema come una definizione: imparare il nome, ricordare due formule, applicare un template. Il lavoro professionale è diverso, perché bisogna capire quale problema risolvono, quali assunzioni contengono e cosa succede quando quelle assunzioni non sono vere.

La prima domanda da fare non è quale metrica calcolo, ma quale decisione dovrà essere presa grazie a questa analisi. Una dashboard, una query o un modello statistico hanno valore solo se riducono l’incertezza decisionale; se non cambiano una scelta, sono documentazione o teatro analitico. Un modo per impostare il lavoro è definire il problema in linguaggio business, identificare l’unità di analisi corretta tra utente, account, evento, sessione, ordine o campagna, controllare se i dati misurano davvero il fenomeno o solo una sua ombra, costruire una metrica interpretabile, segmentare per evitare che la media nasconda pattern opposti e trasformare il risultato in una raccomandazione verificabile.

Caso reale: Netflix e la disciplina delle metriche

Netflix è un esempio utile perché ha costruito molte decisioni di prodotto intorno a segnali comportamentali osservabili: completamento degli episodi, tempo di ricerca prima della riproduzione, abbandono dopo pochi minuti, ritorno nella settimana successiva, efficacia delle raccomandazioni. Il punto non è che ogni azienda debba copiare Netflix, ma che il dato non viene trattato come ornamento, bensì come infrastruttura decisionale.

Quando Netflix valuta una modifica all’esperienza, che sia una nuova riga di raccomandazioni, una diversa immagine di copertina o un algoritmo di ranking, non misura solo il click immediato. Misura anche segnali di qualità: l’utente guarda davvero il contenuto, torna nei giorni successivi, riduce il tempo speso a cercare, aumenta la soddisfazione implicita. Questa disciplina impedisce di ottimizzare vanity metric che sembrano positive nel breve ma danneggiano valore nel lungo periodo. Lo stesso principio vale qui: i due teoremi vanno collegati a un outcome, e se il risultato non aiuta a scegliere tra due azioni alternative l’analisi è incompleta.

Esempio SQL: costruire una vista di controllo

Il pattern seguente è volutamente generico ma eseguibile nella maggior parte dei warehouse moderni. L’obiettivo è creare una base analitica con metrica, segmento e finestra temporale, così da poter confrontare periodi e gruppi senza riscrivere la logica ogni volta.

WITH base_events AS (
  SELECT
    user_id,
    account_id,
    event_type,
    event_time,
    DATE_TRUNC('week', event_time) AS week,
    source,
    device_type
  FROM events
  WHERE event_time >= CURRENT_DATE - INTERVAL '180 days'
    AND user_id IS NOT NULL
),
weekly_user_metrics AS (
  SELECT
    week,
    user_id,
    COALESCE(source, 'unknown') AS source,
    COALESCE(device_type, 'unknown') AS device_type,
    COUNT(*) AS total_events,
    COUNT(DISTINCT DATE(event_time)) AS active_days,
    COUNT(DISTINCT event_type) AS event_diversity,
    MAX(CASE WHEN event_type IN ('purchase', 'subscribe', 'activation') THEN 1 ELSE 0 END) AS reached_key_outcome
  FROM base_events
  GROUP BY week, user_id, source, device_type
)
SELECT
  week,
  source,
  device_type,
  COUNT(DISTINCT user_id) AS users,
  ROUND(AVG(active_days), 2) AS avg_active_days,
  ROUND(AVG(event_diversity), 2) AS avg_event_diversity,
  ROUND(AVG(reached_key_outcome) * 100, 2) AS key_outcome_rate
FROM weekly_user_metrics
GROUP BY week, source, device_type
ORDER BY week, source, device_type;

La query non pretende di essere la risposta finale. Serve a creare una superficie di osservazione fatta di trend, segmenti, differenze tra canali e variazioni nel tempo, da cui l’analista può formulare ipotesi più precise.

Esempio Python: controllare stabilità e anomalie

Una metrica utile deve essere stabile abbastanza da orientare decisioni e sensibile abbastanza da segnalare cambiamenti reali. In Python possiamo controllare variazioni anomale settimana su settimana.


# df contiene: week, segment, users, key_outcome_rate
# key_outcome_rate espresso in percentuale, es. 12.4

df = df.sort_values(['segment', 'week']).copy()
df['previous_rate'] = df.groupby('segment')['key_outcome_rate'].shift(1)
df['wow_change_pp'] = df['key_outcome_rate'] - df['previous_rate']
df['rolling_mean'] = df.groupby('segment')['key_outcome_rate'].transform(
    lambda s: s.rolling(4, min_periods=2).mean()
)
df['rolling_std'] = df.groupby('segment')['key_outcome_rate'].transform(
    lambda s: s.rolling(4, min_periods=2).std()
)
df['z_score'] = (df['key_outcome_rate'] - df['rolling_mean']) / df['rolling_std']

anomalies = df[df['z_score'].abs() >= 2].sort_values('z_score')
print(anomalies[['week', 'segment', 'key_outcome_rate', 'wow_change_pp', 'z_score']])

Il valore di questo controllo è pratico: evita di reagire a ogni oscillazione casuale, ma segnala quando una variazione merita un’investigazione. In azienda questo tipo di analisi può alimentare alert, review settimanali e retrospettive di prodotto.

Errori comuni da evitare

Il primo errore è lavorare su dati aggregati troppo presto, perché una media globale può nascondere due segmenti che si muovono in direzioni opposte. Il secondo è non controllare la qualità del dato: eventi duplicati, tracking incompleto, timezone incoerenti e cambi di definizione producono conclusioni false. Il terzo è confondere correlazione e causalità: se gli utenti che usano una feature convertono di più, non significa che la feature causi la conversione, perché potrebbero usarla proprio in quanto già più motivati.

Per ridurre questi rischi, ogni analisi dovrebbe includere almeno tre controlli: una definizione esplicita della metrica, un confronto per segmento e una verifica contro un periodo precedente o un gruppo di controllo.

Riepilogo

La legge dei grandi numeri e il teorema del limite centrale vanno trattati come strumenti decisionali, non come argomenti da manuale. Il valore nasce quando colleghi problema, dati, metrica, segmentazione e azione. Una buona analisi non termina con “il numero è salito” o “il numero è sceso”, ma con una frase operativa: quale decisione prendiamo, con quale livello di confidenza, e quale metrica useremo per sapere se avevamo ragione.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Collegamento tematicoReal-Time Analytics & ClickHouse SystemsFondamenti di stream processingIntroduzione allo stream processing: differenza tra batch e real-time, architetture e pattern fondamentali.Collegamento tematicoAnalytics Engineering con dbt e Semantic Layerdbt fundamentals e project structuredbt fundamentals e project structure. Lezione su come configurare e strutturare un progetto dbt.Collegamento tematicoAnalytics Engineering con dbt e Semantic LayerTest, contracts e fiducia nei modelliTest, contracts e fiducia nei modelli. Lezione su come garantire la qualità dei dati con dbt.Collegamento tematicoAdvanced SQL for Analytical SystemsCohort analysis in SQLCohort analysis in SQL. Lezione core del modulo Advanced SQL for Analytical Systems con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.Collegamento tematicoAdvanced SQL for Analytical SystemsFunnel analysis in SQLFunnel analysis in SQL. Lezione core del modulo Advanced SQL for Analytical Systems con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.Collegamento tematicoInfrastructure & Ops for Data SystemsInfrastruttura dati moderna: fondamentiPanoramica dell'infrastruttura necessaria per un team dati moderno: cloud, storage, compute e orchestrazione.