Vai al contenuto principale
Distribuzioni e covarianza - immagine ufficiale della lezione su GinnyTech, creata da AD

Distribuzioni, aspettativa, varianza e covarianza

Variabili aleatorie, distribuzioni di probabilità e le tre statistiche fondamentali.

AD
Creato da Andrii Dyshkantiuk
Lezione 153 / 216 Livello: Avanzato Durata: 22 min Prerequisiti: 1

Cosa imparerai

  • Comprendere il problema analitico e il contesto decisionale
  • Applicare esempi, metriche e controlli a casi reali

Distribuzioni, aspettativa, varianza e covarianza

Due campagne hanno la stessa conversion rate media. La prima produce risultati stabili ogni settimana; la seconda alterna picchi, crolli e segmenti instabili. Se guardi solo la media, sembrano equivalenti. Se guardi distribuzione, varianza e covarianza, una è una leva affidabile e l’altra è un rischio operativo.

La matematica dell’incertezza serve a non farti ingannare dal numero centrale. Ogni metrica ha una forma, una dispersione e relazioni con altre metriche. Capire quella forma è spesso più importante del valore medio.

Una scena da cui partire

Leggi questa lezione come una difesa contro la media pigra. Distribuzioni, aspettativa, varianza e covarianza ti aiutano a descrivere non solo “quanto”, ma anche “quanto è stabile”, “quanto è rischioso” e “con cosa si muove insieme”.

  • Contesto: la media rappresenta davvero il comportamento osservato?
  • Metodo: quale dispersione rende la decisione più o meno rischiosa?
  • Applicazione: quale relazione tra metriche potrebbe nascondere un trade-off?

Oltre la Media: Dalle Variabili Aleatorie alle Distribuzioni di Probabilità

Nel data analytics, ogni metrica che misuriamo è, in essenza, una variabile aleatoria. Il “tempo di ascolto” di un utente Spotify, il “valore di un ordine” su Zalando, o il “numero di click” su un annuncio non sono valori fissi, ma realizzazioni di un processo che contiene un elemento di casualità. Una variabile aleatoria, formalmente, è una funzione che mappa gli esiti di un esperimento (es. un utente apre l’app) a un valore numerico (es. i minuti di ascolto). La sua distribuzione di probabilità è la regola che descrive la probabilità con cui la variabile assume ciascun possibile valore.

Ignorare la forma della distribuzione e focalizzarsi solo sulla media è l’errore più comune e costoso nell’analisi dei dati. Diverse distribuzioni modellano fenomeni di business differenti, e sceglierle (o riconoscerle) correttamente è il primo passo verso un’analisi robusta.

  • Distribuzione di Bernoulli (p): È il mattone fondamentale. Modella un singolo esperimento con due soli esiti: successo (valore 1) o fallimento (valore 0). La sua unica caratteristica è la probabilità di successo, p. Un utente converte o non converte? Un cliente abbandona o rinnova l’abbonamento? Ogni test A/B si fonda su milioni di prove bernoulliane.
  • Distribuzione Binomiale (n, p): È la somma di n esperimenti di Bernoulli indipendenti. Se il tasso di conversione di una landing page è p=0.05 (5%), la Binomiale ci dice la probabilità di ottenere esattamente k conversioni su n=1000 visitatori. È il modello per eccellenza per contare i “successi” in un campione di dimensione fissa.
  • Distribuzione di Poisson (λ): Modella il numero di eventi che accadono in un intervallo fissato di tempo o spazio, quando questi eventi sono rari e indipendenti. Il parametro λ (lambda) rappresenta il tasso medio di accadimento. Il numero di ordini ricevuti da un e-commerce in un minuto, il numero di email di supporto arrivate in un’ora, o il numero di difetti in un metro quadro di tessuto seguono spesso una distribuzione di Poisson. È essenziale per il capacity planning e la gestione delle code.
  • Distribuzione Normale o Gaussiana (μ, σ²): La più celebre e, pericolosamente, la più abusata. Grazie al Teorema del Limite Centrale, la somma (o la media) di un gran numero di variabili aleatorie indipendenti tende a distribuirsi come una Normale, a prescindere dalla loro distribuzione originale. Questo la rende un’ottima approssimazione per fenomeni che sono il risultato di molti piccoli effetti additivi, come l’altezza umana o gli errori di misurazione. Tuttavia, assumerla per default per metriche di business come il revenue o il tempo di permanenza è quasi sempre sbagliato.
  • Distribuzione Log-normale (μ, σ²): Se una variabile Y è distribuita normalmente, allora X = e^Y ha una distribuzione Log-normale. Questa distribuzione è caratterizzata da una lunga coda a destra (asimmetria positiva). È il modello corretto per la stragrande maggioranza delle metriche di business che sono il risultato di effetti moltiplicativi e non possono essere negative: revenue per utente, valore degli ordini, tempo speso su una pagina. Il caso di Spotify è un esempio da manuale: pochi utenti con valori altissimi “stirano” la distribuzione a destra, creando un divario enorme tra media e mediana. Riconoscerla previene errori madornali nella stima dei ricavi e nella segmentazione dei clienti.

L’Aspettativa Matematica: Il Baricentro Ponderato del Business

L’aspettativa o valore atteso di una variabile aleatoria X, indicata con E[X], è la generalizzazione del concetto di media. Non è una semplice media aritmetica, ma una media dei possibili valori di X ponderata per le rispettive probabilità. Per una variabile discreta, si calcola come E[X] = Σ x * P(X=x), mentre per una continua diventa E[X] = ∫ x * f(x)dx, dove f(x) è la funzione di densità di probabilità.

Il valore atteso rappresenta il baricentro della distribuzione di probabilità. Se potessimo ripetere l’esperimento infinite volte e calcolare la media dei risultati, otterremmo proprio E[X]. Nel business, questo si traduce nel valore medio che ci “aspettiamo” di osservare nel lungo periodo. Ad esempio, se un test A/B ha due varianti:

  • Variante A: probabilità di conversione p_A = 0.10, valore per conversione = 50€
  • Variante B: probabilità di conversione p_B = 0.08, valore per conversione = 70€

Per decidere quale variante implementare, non basta guardare né la probabilità né il valore isolatamente. Calcoliamo il valore atteso del revenue per visitatore:

  • E[Revenue_A] = 50€ * 0.10 + 0€ * 0.90 = 5.0€
  • E[Revenue_B] = 70€ * 0.08 + 0€ * 0.92 = 5.6€

Nonostante la probabilità di conversione più bassa, la Variante B ha un valore atteso superiore. Questa analisi guida una decisione razionale basata sui dati.

Una delle proprietà più potenti dell’aspettativa è la sua linearità: E[aX + bY] = aE[X] + bE[Y] per qualsiasi costante a, b e variabili aleatorie X, Y. Questa proprietà vale sempre, anche se X e Y non sono indipendenti. Questo è incredibilmente utile. Immaginiamo che un’azienda come Revolut offra due servizi principali: un conto base (X) e un servizio di trading (Y). L’azienda conosce il profitto atteso per utente dal conto base, E[X] = 15€/anno, e dal servizio di trading, E[Y] = 50€/anno (calcolato solo sugli utenti che fanno trading). Se il 30% degli utenti usa il trading, il profitto atteso totale per un utente medio non è una semplice media. Usando la linearità, possiamo calcolare il profitto atteso da un portafoglio di servizi. L’errore da evitare, tuttavia, è confondere il valore atteso con il valore “tipico” o più probabile. Nel caso della distribuzione Log-normale del revenue di Spotify, E[X] = 92 minuti, ma il valore più probabile (la moda) e il valore mediano erano molto più bassi. Comunicare solo l’aspettativa senza menzionare la forma della distribuzione può portare a pianificazioni e previsioni completamente sballate.

Varianza e Deviazione Standard: Quantificare l’Incertezza e il Rischio

Se l’aspettativa ci dà il centro di una distribuzione, la varianza ci dice quanto i dati sono dispersi attorno a quel centro. Formalmente, la varianza di X, denotata con Var(X) o σ², è il valore atteso della deviazione quadratica dalla media: Var(X) = E[(X - E[X])²]. Una formula computazionalmente più comoda è Var(X) = E[X²] - (E[X])².

Poiché la varianza è espressa in unità al quadrato (es. €²), è spesso più intuitivo usare la sua radice quadrata, la deviazione standard (σ), che ha la stessa unità di misura della variabile originale. Una bassa deviazione standard indica che i dati tendono a raggrupparsi vicino alla media; un’alta deviazione standard indica che i dati sono molto sparpagliati.

Questa misura non è un puro esercizio accademico; è una quantificazione diretta del rischio e dell’imprevedibilità.

Caso di Studio: Gestione dell’Inventario in Zalando

Consideriamo il team di supply chain di Zalando, che deve decidere quanto stock ordinare per due nuovi prodotti per la prossima stagione:

  1. “Stivale Classico”: Un modello evergreen, con una domanda stabile.
  2. “Sneaker Hype”: Un modello di tendenza, promosso da influencer, con una domanda potenzialmente esplosiva ma molto incerta.

L’analisi previsionale stima che entrambi i prodotti abbiano vendite medie attese di E[X] = 1000 unità/mese. Se il manager si basasse solo sull’aspettativa, ordinerebbe la stessa quantità di scorte per entrambi. Ma ora introduciamo la varianza:

  • Stivale Classico: Ha una domanda prevedibile. La deviazione standard è bassa, diciamo σ_stivale = 50 unità.
  • Sneaker Hype: La domanda è volatile. Potrebbe essere un flop o un successo clamoroso. La deviazione standard è alta, σ_sneaker = 400 unità.

Cosa significa questo in pratica? Per lo “Stivale Classico”, quasi tutte le vendite mensili (circa il 99.7% se la distribuzione fosse normale) si collocheranno nell’intervallo 1000 ± 3*50, cioè tra 850 e 1150 unità. Mantenere uno stock di sicurezza di 1200 unità garantisce di non esaurire quasi mai le scorte. Per la “Sneaker Hype”, lo stesso intervallo di confidenza è 1000 ± 3*400, cioè tra -200 (impossibile, quindi 0) e 2200 unità. Per avere la stessa sicurezza di non esaurire lo stock, Zalando dovrebbe ordinare più di 2200 unità. Questo immobilizza una quantità enorme di capitale e aumenta il rischio di invenduto se la sneaker si rivela un flop. La varianza trasforma un problema di “quanto vendiamo in media” in un problema di “qual è il trade-off tra costo del capitale immobilizzato e rischio di stock-out?”. Una metrica apparentemente semplice come la deviazione standard diventa un input diretto per decisioni strategiche di gestione del rischio e allocazione del budget.

Covarianza e Correlazione: Svelare le Relazioni Nascoste tra le Metriche

Mentre la varianza misura la dispersione di una singola variabile, la covarianza misura come due variabili si muovono insieme. Dati X e Y, la loro covarianza è Cov(X,Y) = E[(X - E[X])(Y - E[Y])].

  • Se Cov(X,Y) >0, le variabili tendono a muoversi nella stessa direzione: quando X è sopra la sua media, anche Y tende a essere sopra la sua.
  • Se Cov(X,Y) <0, si muovono in direzioni opposte: quando X è sopra la sua media, Y tende a essere sotto.
  • Se Cov(X,Y) ≈ 0, non c’è una tendenza lineare tra le due.

Il valore della covarianza dipende però dall’unità di misura delle variabili, rendendola difficile da interpretare. Per questo si usa il coefficiente di correlazione di Pearson (ρ), che è la covarianza normalizzata: Corr(X,Y) = ρ = Cov(X,Y) / (σ_X * σ_Y). Questo valore è adimensionale e varia sempre tra -1 e +1.

  • ρ = +1: Perfetta relazione lineare positiva.
  • ρ = -1: Perfetta relazione lineare negativa.
  • ρ = 0: Nessuna relazione lineare.

Questo ultimo punto è fondamentale. Una correlazione pari a zero non implica indipendenza. Significa solo che non c’è una relazione lineare. Una relazione quadratica perfetta (es. Y = X²) può avere una correlazione di zero se la distribuzione di X è simmetrica attorno allo zero. Lo statistico Francis Anscombe dimostrò questo pericolo nel 1973 con il suo celebre “Quartetto di Anscombe”: quattro dataset con medie, varianze e coefficienti di correlazione quasi identici, ma con andamenti grafici completamente diversi. La lezione è chiara: calcolare la correlazione senza visualizzare i dati è una pratica pericolosa.

Caso di Studio: Ottimizzazione dell’Engagement su Netflix

Il team di prodotto di Netflix vuole capire se il tempo che un utente passa a navigare nel catalogo (browsing_time) è correlato al tempo totale di visione durante quella sessione (watch_time). L’ipotesi è duplice:

  1. Ipotesi positiva: Un browsing_time più lungo porta a scoprire contenuti più affini, aumentando il watch_time. La correlazione sarebbe positiva. Il recommendation engine funziona.
  2. Ipotesi negativa: Un browsing_time più lungo è sintomo di frustrazione (“paradosso della scelta”), portando l’utente ad abbandonare la sessione. La correlazione sarebbe negativa.

Il team analizza i dati di milioni di sessioni e calcola Corr(browsing_time, watch_time) = +0.15. È una correlazione positiva ma debole. Da sola, questa metrica è insufficiente. Il team decide di segmentare gli utenti. Scopre che:

  • Per i nuovi utenti, la correlazione è +0.45. La navigazione è una fase di scoperta cruciale che porta a un forte engagement.
  • Per gli utenti fidelizzati, la correlazione è -0.20. Questi utenti sanno già cosa vogliono vedere; una navigazione prolungata indica che non trovano i loro contenuti preferiti, portando a un calo del tempo di visione.

Questa analisi, che combina la correlazione con la segmentazione, genera insight azionabili. Per i nuovi utenti, Netflix potrebbe ottimizzare l’interfaccia per favorire l’esplorazione. Per gli utenti fidelizzati, potrebbe dare maggiore priorità alla sezione “Continua a guardare” o a raccomandazioni basate sulla cronologia recente. La covarianza e la correlazione, se usate correttamente, svelano le dinamiche nascoste che guidano il comportamento degli utenti.

Dalla Teoria alla Pratica: Un Laboratorio su Dati di E-commerce

Abbiamo visto la teoria, ora applichiamola. Immaginiamo di essere analisti per un e-commerce e di avere una tabella orders con i dati delle transazioni. Useremo SQL per estrarre le statistiche descrittive che abbiamo discusso e trarne conclusioni operative.

Il codice seguente è scritto in SQL standard (compatibile con PostgreSQL, BigQuery, Snowflake) e simula una tabella di ordini per permetterti di eseguire le query direttamente.

-- Simula una tabella di dati di ordini con una distribuzione Log-normale dei valori
WITH orders_data AS (
  SELECT 1 AS order_id, 2 AS items_per_order, 35.50 AS order_value UNION ALL
  SELECT 2, 1, 12.00 UNION ALL
  SELECT 3, 5, 150.25 UNION ALL
  SELECT 4, 1, 25.00 UNION ALL
  SELECT 5, 2, 45.80 UNION ALL
  SELECT 6, 8, 350.00 UNION ALL -- Un outlier significativo
  SELECT 7, 1, 18.90 UNION ALL
  SELECT 8, 3, 65.00 UNION ALL
  SELECT 9, 2, 33.75 UNION ALL
  SELECT 10, 1, 9.50
)
-- Ora analizziamo questi dati
SELECT
  -- Aspettativa e Mediana
  AVG(order_value) AS media_valore_ordine,
  PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY order_value) AS mediana_valore_ordine,

  -- Varianza e Deviazione Standard
  VAR_SAMP(order_value) AS varianza_valore_ordine,
  STDDEV_SAMP(order_value) AS dev_std_valore_ordine,

  -- Covarianza e Correlazione tra valore e numero di articoli
  COVAR_SAMP(order_value, items_per_order) AS covarianza_valore_articoli,
  CORR(order_value, items_per_order) AS correlazione_valore_articoli
FROM
  orders_data;

Esercizio 1: Analisi della Tendenza Centrale e della Dispersione

Esegui la prima parte della query (le prime quattro colonne del SELECT). Noterai che la media_valore_ordine (circa 74.57) è significativamente più alta della mediana_valore_ordine (39.65).

  • Domanda: Cosa ti suggerisce questa discrepanza sulla distribuzione del valore degli ordini? Quale dei due valori useresti per descrivere un ordine “tipico” a un meeting con il marketing? Perché l’ordine con ID 6 influenza così tanto la media?

Esercizio 2: Analisi della Relazione tra Variabili

Ora esegui l’intera query e osserva le ultime due colonne. Otterrai una covarianza_valore_articoli positiva e alta, e una correlazione_valore_articoli molto forte (superiore a +0.9).

  • Domanda: Cosa significa una correlazione così alta? Quale ipotesi di business conferma questo dato? Se fossi nel team di prodotto, quale funzionalità potresti proporre per sfruttare questa relazione (es. “chi ha comprato questo, ha comprato anche…”, bundle di prodotti, sconti sulla quantità)?

Esercizio 3: Decisione Basata sui Dati

Il management ti chiede se lanciare una campagna di sconti del 10% su tutti gli ordini per aumentare il volume delle vendite. Basandoti sull’alta varianza e sulla presenza di un ordine outlier, quale rischio identifichi in questa proposta? Suggeriresti un’alternativa più mirata (es. uno sconto applicabile solo a ordini sotto i 50€) e come giustificheresti la tua proposta usando i concetti di media, mediana e deviazione standard?

Siamo partiti da una semplice media e abbiamo compiuto un viaggio nel cuore della statistica descrittiva, scoprendo un arsenale di strumenti per comprendere la struttura dei dati.

  • Le distribuzioni di probabilità (Bernoulli, Binomiale, Poisson, Normale, Log-normale) non sono astrazioni matematiche, ma modelli che descrivono i processi generatori delle nostre metriche di business. Riconoscere la distribuzione corretta, specialmente la comune Log-normale, è il primo passo per evitare analisi fuorvianti.
  • L’aspettativa (E[X]) è il baricentro di una distribuzione, il valore medio che ci attendiamo nel lungo periodo. È uno strumento potente per confrontare alternative (come in un A/B test), ma va sempre affiancato alla mediana per capire il comportamento “tipico” dell’utente.
  • La varianza (Var(X)) e la deviazione standard (σ) quantificano la dispersione, l’incertezza e il rischio. Permettono di passare da una stima puntuale a un intervallo di confidenza, informando decisioni critiche come la gestione dell’inventario o la previsione finanziaria.
  • La covarianza e la correlazione (ρ) misurano la forza e la direzione della relazione lineare tra due variabili. Sono fondamentali per scoprire le dinamiche tra le metriche (es. engagement e retention), ma

Laboratorio ed esercizi

Metti in pratica quanto appreso con esercizi a difficoltà crescente. Lavora su un dataset reale — se non hai accesso al tuo data warehouse aziendale, usa dataset pubblici come Google Analytics Sample su BigQuery o il dataset E-Commerce di Kaggle.

Esercizio 1 — Implementazione base. Riproduci la query o il modello descritto nella lezione, adattandolo al tuo dataset. Verifica che i risultati siano coerenti con le metriche attese: se il totale non quadra con una query di controllo, c’è un problema di grain.

Esercizio 2 — Estensione. Aggiungi una dimensione di analisi non coperta nella lezione: segmenta per paese, per device, per fascia oraria o per coorte. Dove emergono pattern inattesi? Cosa implicano per le decisioni operative?

Esercizio 3 — Automazione. Trasforma la query in una vista o in un modello dbt con test di integrità (unique, not_null) e documenta le colonne. Se il tuo stack lo permette, configura un alert che notifichi quando la metrica esce da 2 deviazioni standard dalla media mobile.

Problema reale

Nel dominio di matematica per analisi dati, Distribuzioni, aspettativa, varianza e covarianza serve a risolvere questo problema: usare concetti matematici per capire incertezza, struttura e limiti delle analisi. La lezione non va trattata come teoria isolata, ma come un modo per migliorare una scelta concreta con dati, assunzioni esplicite e controlli minimi.

Obiettivo operativo: Comprendere il problema analitico e il contesto decisionale; Applicare esempi, metriche e controlli a casi reali. Se alla fine non sai indicare quale decisione cambia, quale dato osservi e quale errore vuoi evitare, la lezione non è ancora diventata competenza applicata.

Modello concettuale

FaseCosa chiarireOutput
DomandaQuale scelta reale deve migliorare?Decisione da prendere
MisuraQuale segnale osservabile rappresenta il problema?Metrica o dato sorgente
ControlloQuale baseline rende il risultato interpretabile?Confronto credibile
AzioneChe cosa cambia dopo l’analisi?Prossimo passo operativo

Il modello concettuale è intenzionalmente semplice: decisione, dato, controllo, azione. Ogni approfondimento tecnico deve rafforzare almeno uno di questi quattro punti.

Formalizzazione rigorosa

Per rendere Distribuzioni, aspettativa, varianza e covarianza analizzabile, definisci prima l’unità di lavoro: variabile, vettore, distribuzione, funzione, campione o matrice. Poi collega questa unità a una metrica osservabile: errore, distanza, varianza, stabilità, sensibilità e interpretabilità. Infine dichiara la decisione attesa: formalizzazione, controllo di assunzione, calcolo o interpretazione geometrica.

ElementoSpecifica richiesta
Unità di analisivariabile, vettore, distribuzione, funzione, campione o matrice
Segnale principaleerrore, distanza, varianza, stabilità, sensibilità e interpretabilità
BaselinePeriodo precedente, gruppo comparabile, benchmark o scenario controfattuale
Decisioneformalizzazione, controllo di assunzione, calcolo o interpretazione geometrica
RischioScambiare un numero disponibile per una prova sufficiente

La formalizzazione e solida quando un altro analista può riprodurre la logica, criticare le assunzioni e ottenere la stessa decisione partendo dagli stessi dati.

Esempio o caso studio

Una metrica media non basta quando il rischio dipende da dispersione, code e variabili che si muovono insieme. Distribuzione, aspettativa, varianza e covarianza permettono di descrivere non solo il valore tipico, ma anche l’incertezza che accompagna la decisione.

Evidenza osservataLettura prudenteAzione consigliata
Il numero miglioraPotrebbe essere effetto reale o variazione normaleCercare confronto e segmento
Un segmento cambia più degli altriLa media aggregata nasconde una differenzaSeparare coorti o casi d’uso
Il costo cresce insieme al risultatoL’impatto va letto sul margineStimare trade-off e sostenibilità

Lab / esercizio

Livello base

Scrivi una scheda di una pagina per Distribuzioni, aspettativa, varianza e covarianza: decisione da supportare, metrica primaria, baseline, rischio principale e azione se il segnale e confermato.

Livello intermedio

Costruisci una tabella con tre segmenti, periodi o scenari. Per ciascuno indica cosa cambia, quale spiegazione alternativa e plausibile e quale controllo useresti prima di raccomandare un azione.

Livello research-grade

Prepara un decision memo: ipotesi, dati richiesti, criteri di esclusione, controlli di qualità, soglia decisionale, rischio residuo e piano di monitoraggio dopo la decisione.

Dataset e materiali consigliati

Usa dataset numerici, simulazioni, matrici, campioni, notebook e problemi guidati. Se non hai accesso a dati reali, crea un dataset sintetico con almeno 200 righe, una dimensione temporale, una dimensione segmento e una metrica di outcome.

Errore tipico da evitare

L’errore più comune e usare Distribuzioni, aspettativa, varianza e covarianza come etichetta invece che come processo. Succede quando il team mostra un grafico senza decisione, una metrica senza baseline, o una conclusione senza indicare quale assunzione potrebbe invalidarla.

La domanda di controllo è: se questo risultato fosse instabile, quale scelta sbaglierei? Se la risposta non è concreta, manca ancora il collegamento tra analisi e azione.

Quiz o checkpoint

  1. Quale decisione concreta dovrebbe migliorare questa lezione?
  2. Quale unità di analisi rende il problema misurabile?
  3. Quale baseline useresti per evitare una lettura ingenua?
  4. Quale errore tipico potrebbe cambiare la conclusione?
  5. Quale output consegneresti a uno stakeholder non tecnico?

Riepilogo operativo

Distribuzioni, aspettativa, varianza e covarianza diventa utile quando produce una decisione più chiara, non quando aggiunge terminologia. Usa il framework problema, modello, formalizzazione, esempio, lab e checkpoint per trasformare la lezione in pratica verificabile. Categoria: Tecnico. Difficoltà: advanced. Tempo stimato: 22 min.