Stima e intervalli - immagine ufficiale della lezione su GinnyTech, creata da AD

Stima, errore standard e intervalli di confidenza

Come stimare parametri dai dati e quantificare l'incertezza della stima.

Creato daAndrii Dyshkantiuk

Lezione 156 / 236Livello: AvanzatoDurata: 22 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

Test d'ipotesi: logica, non rituale

import numpy as np

import pandas as pd

Stima, errore standard e intervalli di confidenza

Un report dice che la soddisfazione media dei clienti è salita da 7,4 a 7,7. Sembra una buona notizia, finché qualcuno chiede quanto siamo sicuri che non sia solo rumore del campione. Da quella domanda dipende se festeggiare, indagare o non fare nulla. Stima, errore standard e intervalli di confidenza servono a mettere un margine di onestà intorno ai numeri: non cancellano l’incertezza, la rendono visibile, così il team può decidere senza fingere precisione.

Perché ogni stima porta con sé la sua fragilità

Leggi questa lezione con un criterio operativo: ogni numero campionario deve portare con sé una misura della sua fragilità. Una media senza errore standard può sembrare autorevole, ma spesso è solo una stima senza contesto. Le tre domande da farsi davanti a un numero sono da quale popolazione arriva il campione, quanto oscilla la stima se il campione cambia, e quale decisione diventa più prudente quando mostri l’intervallo invece del solo valore puntuale.

La categoria è tecnica, ma il fine resta decisionale. Una sequenza minima tiene insieme il ragionamento: quale scelta deve migliorare, quale segnale osservabile riduce l’incertezza, rispetto a quale baseline lo leggi, cosa può falsare la lettura e quale azione segue. Ogni passaggio rende più chiaro il costo di una decisione presa su un numero instabile.

L’errore standard: quanto la stima balla

L’errore standard (SE) di una stima è la deviazione standard della distribuzione campionaria dello stimatore. Risponde alla domanda: se ripetessi questo studio molte volte, quanto varierebbero le stime? Per la media campionaria vale SE(x̄) = σ/√n.

Ci sono due modi per ridurre l’errore standard. Puoi aumentare n, tenendo presente che la radice quadrata significa quadruplicare n per dimezzare SE, oppure ridurre σ, cosa non sempre possibile. L’impatto è concreto. Un A/B test con n=10.000 e conversione baseline p=0.10 ha SE = √(p(1-p)/n) = √(0.09/10000) = 0.003, quindi rilevi differenze di circa 0.6 punti percentuali (2×SE). Se l’effetto atteso è 0.2%, ti servono circa 90.000 utenti.

Intervalli di confidenza: il significato corretto

Un intervallo di confidenza al 95% non significa che c’è una probabilità del 95% che il vero parametro sia nell’intervallo. Quella è l’interpretazione bayesiana, che richiede un prior. Significa invece che, se ripetessi l’esperimento infinite volte e costruissi un intervallo con questo metodo ogni volta, il 95% degli intervalli conterrebbe il vero parametro.

Nella pratica l’intervallo serve a due cose. La prima è darti un range di valori compatibili con i dati: gli effetti tra ci_lower e ci_upper sono ragionevoli dato il campione. La seconda è funzionare come test d’ipotesi incorporato, perché se l’intervallo non include lo zero (o il valore di non-inferiorità) l’effetto è statisticamente significativo. Il problema più comune è l’errore di interpretazione: dire “il vero effetto è tra 1% e 3%” come se fosse una certezza. Non lo è.

Il bootstrap: quando non puoi assumere normalità

Cosa fai quando la distribuzione del tuo stimatore non è normale, cioè quasi sempre per le metriche di business? Il bootstrap (Efron, 1979) è geniale nella sua semplicità. Campioni con ripetizione dal dataset originale N volte, calcoli la stima su ogni campione, e la distribuzione empirica delle stime bootstrap approssima bene la distribuzione campionaria. I percentili 2.5 e 97.5 sono il tuo intervallo di confidenza bootstrap.

def bootstrap_ci(data, stat_func, n_boot=10000):
    boots = [stat_func(np.random.choice(data, len(data))) for _ in range(n_boot)]
    return np.percentile(boots, [2.5, 97.5])

ci = bootstrap_ci(revenues, np.mean)  # [82.3, 97.8]

Riferimenti:

Efron, B. (1979). “Bootstrap Methods: Another Look at the Jackknife.” Annals of Statistics, 7(1).
Efron, B. & Tibshirani, R.J. (1993). An Introduction to the Bootstrap. Chapman & Hall.

Leggere stima e incertezza come parte di un sistema

In un progetto reale stima, errore standard e intervalli di confidenza non vivono mai isolati. Sono parte di un sistema più ampio fatto di decisioni, dati disponibili, vincoli tecnici, incentivi organizzativi e qualità dell’esecuzione. Il rischio dell’analista principiante è trattare il tema come una definizione: imparare il nome, ricordare due formule, applicare un template. Il lavoro professionale è diverso, perché bisogna capire quale problema risolve, quali assunzioni contiene e cosa succede quando quelle assunzioni non sono vere.

La prima domanda da fare non è quale metrica calcolo, ma quale decisione dovrà essere presa grazie a questa analisi. Una dashboard, una query o un modello statistico hanno valore solo se riducono l’incertezza decisionale; se non cambiano una scelta, sono documentazione o teatro analitico. Un modo per impostare il lavoro è definire il problema in linguaggio business, identificare l’unità di analisi corretta tra utente, account, evento, sessione, ordine o campagna, controllare se i dati misurano davvero il fenomeno o solo una sua ombra, costruire una metrica interpretabile, segmentare per evitare che la media nasconda pattern opposti e trasformare il risultato in una raccomandazione verificabile.

Caso reale: Netflix e la disciplina delle metriche

Netflix è un esempio utile perché ha costruito molte decisioni di prodotto intorno a segnali comportamentali osservabili: completamento degli episodi, tempo di ricerca prima della riproduzione, abbandono dopo pochi minuti, ritorno nella settimana successiva, efficacia delle raccomandazioni. Il punto non è che ogni azienda debba copiare Netflix, ma che il dato non viene trattato come ornamento, bensì come infrastruttura decisionale.

Quando Netflix valuta una modifica all’esperienza, che sia una nuova riga di raccomandazioni, una diversa immagine di copertina o un algoritmo di ranking, non misura solo il click immediato. Misura anche segnali di qualità: l’utente guarda davvero il contenuto, torna nei giorni successivi, riduce il tempo speso a cercare, aumenta la soddisfazione implicita. Questa disciplina impedisce di ottimizzare vanity metric che sembrano positive nel breve ma danneggiano valore nel lungo periodo. Lo stesso vale per la stima dell’incertezza: se il risultato non aiuta a scegliere tra due azioni alternative, l’analisi è incompleta.

Esempio SQL: costruire una vista di controllo

Il pattern seguente è volutamente generico ma eseguibile nella maggior parte dei warehouse moderni. L’obiettivo è creare una base analitica con metrica, segmento e finestra temporale, così da poter confrontare periodi e gruppi senza riscrivere la logica ogni volta.

WITH base_events AS (
  SELECT
    user_id,
    account_id,
    event_type,
    event_time,
    DATE_TRUNC('week', event_time) AS week,
    source,
    device_type
  FROM events
  WHERE event_time >= CURRENT_DATE - INTERVAL '180 days'
    AND user_id IS NOT NULL
),
weekly_user_metrics AS (
  SELECT
    week,
    user_id,
    COALESCE(source, 'unknown') AS source,
    COALESCE(device_type, 'unknown') AS device_type,
    COUNT(*) AS total_events,
    COUNT(DISTINCT DATE(event_time)) AS active_days,
    COUNT(DISTINCT event_type) AS event_diversity,
    MAX(CASE WHEN event_type IN ('purchase', 'subscribe', 'activation') THEN 1 ELSE 0 END) AS reached_key_outcome
  FROM base_events
  GROUP BY week, user_id, source, device_type
)
SELECT
  week,
  source,
  device_type,
  COUNT(DISTINCT user_id) AS users,
  ROUND(AVG(active_days), 2) AS avg_active_days,
  ROUND(AVG(event_diversity), 2) AS avg_event_diversity,
  ROUND(AVG(reached_key_outcome) * 100, 2) AS key_outcome_rate
FROM weekly_user_metrics
GROUP BY week, source, device_type
ORDER BY week, source, device_type;

La query non pretende di essere la risposta finale. Serve a creare una superficie di osservazione fatta di trend, segmenti, differenze tra canali e variazioni nel tempo, da cui l’analista può formulare ipotesi più precise.

Esempio Python: controllare stabilità e anomalie

Una metrica utile deve essere stabile abbastanza da orientare decisioni e sensibile abbastanza da segnalare cambiamenti reali. In Python possiamo controllare variazioni anomale settimana su settimana.


# df contiene: week, segment, users, key_outcome_rate
# key_outcome_rate espresso in percentuale, es. 12.4

df = df.sort_values(['segment', 'week']).copy()
df['previous_rate'] = df.groupby('segment')['key_outcome_rate'].shift(1)
df['wow_change_pp'] = df['key_outcome_rate'] - df['previous_rate']
df['rolling_mean'] = df.groupby('segment')['key_outcome_rate'].transform(
    lambda s: s.rolling(4, min_periods=2).mean()
)
df['rolling_std'] = df.groupby('segment')['key_outcome_rate'].transform(
    lambda s: s.rolling(4, min_periods=2).std()
)
df['z_score'] = (df['key_outcome_rate'] - df['rolling_mean']) / df['rolling_std']

anomalies = df[df['z_score'].abs() >= 2].sort_values('z_score')
print(anomalies[['week', 'segment', 'key_outcome_rate', 'wow_change_pp', 'z_score']])

Il valore di questo controllo è pratico: evita di reagire a ogni oscillazione casuale, ma segnala quando una variazione merita un’investigazione. In azienda questo tipo di analisi può alimentare alert, review settimanali e retrospettive di prodotto.

Errori comuni da evitare

Il primo errore è lavorare su dati aggregati troppo presto, perché una media globale può nascondere due segmenti che si muovono in direzioni opposte. Il secondo è non controllare la qualità del dato: eventi duplicati, tracking incompleto, timezone incoerenti e cambi di definizione producono conclusioni false. Il terzo è confondere correlazione e causalità: se gli utenti che usano una feature convertono di più, non significa che la feature causi la conversione, perché potrebbero usarla proprio in quanto già più motivati.

Per ridurre questi rischi, ogni analisi dovrebbe includere almeno tre controlli: una definizione esplicita della metrica, un confronto per segmento e una verifica contro un periodo precedente o un gruppo di controllo.

Riepilogo

Stima, errore standard e intervalli di confidenza vanno trattati come strumenti decisionali, non come un argomento da manuale. Il valore nasce quando colleghi problema, dati, metrica, segmentazione e azione. Una buona analisi non termina con “il numero è salito” o “il numero è sceso”, ma con una frase operativa: quale decisione prendiamo, con quale livello di confidenza, e quale metrica useremo per sapere se avevamo ragione.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Collegamento tematicoMarketing Analytics, Incrementality e Unit EconomicsAnalisi end-to-end con UTM e parametri di campagnaProgettare una strategia UTM robusta per tracciare campagne end-to-end dal click al revenue.Collegamento tematicoAnalytics Engineering con dbt e Semantic Layerdbt fundamentals e project structuredbt fundamentals e project structure. Lezione su come configurare e strutturare un progetto dbt.Collegamento tematicoAnalytics Engineering con dbt e Semantic LayerTest, contracts e fiducia nei modelliTest, contracts e fiducia nei modelli. Lezione su come garantire la qualità dei dati con dbt.Collegamento tematicoAdvanced SQL for Analytical SystemsCohort analysis in SQLCohort analysis in SQL. Lezione core del modulo Advanced SQL for Analytical Systems con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.Collegamento tematicoAdvanced SQL for Analytical SystemsFunnel analysis in SQLFunnel analysis in SQL. Lezione core del modulo Advanced SQL for Analytical Systems con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.Collegamento tematicoFondamenti Filosofici dell Analisi dei DatiIncertezza, rischio e ignoranzaCome distinguere ciò che sai, ciò che puoi stimare e ciò che non puoi nemmeno immaginare.