Distribuzioni e covarianza - immagine ufficiale della lezione su GinnyTech, creata da AD

Distribuzioni, aspettativa, varianza e covarianza

Variabili aleatorie, distribuzioni di probabilità e le tre statistiche fondamentali.

Creato daAndrii Dyshkantiuk

Lezione 153 / 236Livello: AvanzatoDurata: 22 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

Probabilità: assiomi, eventi, condizionamento

Distribuzioni, aspettativa, varianza e covarianza

Questa lezione tratta distribuzioni, aspettativa, varianza e covarianza come una scelta operativa, non come un capitolo di teoria da memorizzare. La categoria è tecnica, ma il punto non è accumulare definizioni: è capire quale decisione cambia quando il dato diventa più affidabile. Immagina due campagne con la stessa conversion rate media: la prima produce risultati stabili ogni settimana, la seconda alterna picchi, crolli e segmenti instabili. Se guardi solo la media sembrano equivalenti. Se guardi distribuzione, varianza e covarianza, una è una leva affidabile e l’altra è un rischio operativo.

Dal problema alla decisione

Il problema vero non è conoscere queste statistiche in astratto. È decidere cosa fare quando il team ha dati incompleti, metriche ambigue o vincoli tecnici che rendono fragile la lettura del fenomeno. Una lezione utile separa il segnale dal rumore, dice quale baseline usare e indica quale azione diventa più difendibile dopo l’analisi.

La matematica dell’incertezza serve a non farti ingannare dal numero centrale. Ogni metrica ha una forma, una dispersione e relazioni con altre metriche, e capire quella forma è spesso più importante del valore medio. Leggi questa lezione come una difesa contro la media pigra: distribuzioni, aspettativa, varianza e covarianza ti aiutano a descrivere non solo quanto, ma anche quanto è stabile, quanto è rischioso e con cosa si muove insieme.

Variabili aleatorie e distribuzioni

Nel data analytics ogni metrica che misuriamo è, in essenza, una variabile aleatoria. Il tempo di ascolto di un utente Spotify, il valore di un ordine su Zalando o il numero di click su un annuncio non sono valori fissi, ma realizzazioni di un processo che contiene un elemento di casualità. Una variabile aleatoria, formalmente, è una funzione che mappa gli esiti di un esperimento, per esempio un utente che apre l’app, a un valore numerico, per esempio i minuti di ascolto. La sua distribuzione di probabilità è la regola che descrive la probabilità con cui la variabile assume ciascun possibile valore.

Aspettativa, varianza e covarianza sono i tre modi in cui leggiamo quella distribuzione. L’aspettativa dice dove si concentra il valore tipico, la varianza dice quanto i valori si disperdono intorno a quel centro, la covarianza dice se due variabili tendono a muoversi insieme o in direzioni opposte. Sono tre domande diverse sulla stessa metrica, e rispondere solo alla prima è il modo più rapido per prendere una decisione sbagliata.

Una sequenza di lavoro

Conviene seguire una sequenza fissa, così la nozione tecnica non si trasforma in un rituale vuoto. Ogni passaggio deve rendere più chiaro il costo di una decisione sbagliata.

Passaggio	Domanda da fare	Output atteso
Decisione	Che cosa cambia se leggiamo bene distribuzione e dispersione?	Scelta esplicita
Segnale	Quale dato osservabile riduce l’incertezza?	Metrica o evento
Baseline	Rispetto a cosa interpretiamo il risultato?	Confronto credibile
Vincolo	Che cosa può falsare la lettura?	Assunzione da dichiarare
Azione	Quale passo operativo segue?	Raccomandazione controllabile

Formalizzare senza complicare

Formalizzare la lezione significa renderla una relazione tra decisione, evidenza e rischio. Non serve a complicare le cose: serve a rendere visibili le assunzioni, così uno stakeholder può discutere il criterio decisionale invece di fidarsi del risultato per autorità.

Elemento	Definizione operativa	Controllo minimo
Unità di analisi	Oggetto su cui misuri il fenomeno	Utente, account, evento, ordine o periodo
Variabile osservata	Segnale che rappresenta il comportamento	Definizione stabile e tracciabile
Baseline	Stato contro cui confronti il segnale	Periodo, segmento, controllo o benchmark
Soglia decisionale	Punto in cui cambia l’azione	Criterio scritto prima della lettura
Rischio residuo	Errore che può restare dopo l’analisi	Sensitivity check o revisione qualitativa

Esempio o caso studio

Immagina un team che deve usare distribuzione, varianza e covarianza per decidere se cambiare una pipeline, una metrica, un investimento o una dashboard. La domanda non è quale sia la definizione corretta, ma quale scelta diventa meno rischiosa se questa analisi è fatta bene.

Situazione	Lettura prudente	Decisione
Il dato migliora ma la baseline è debole	Il segnale potrebbe essere reale o dipendere dal campione	Rafforzare il confronto prima di scalare
La metrica cambia in un solo segmento	L’effetto medio nasconde eterogeneità	Separare coorti o casi d’uso
Il costo operativo aumenta	Il beneficio va valutato sul margine	Applicare una soglia economica esplicita
Il sistema produce numeri incoerenti	La fiducia nel dato è parte della decisione	Correggere ownership e controlli

Esercizio e lab

Al livello base scrivi in cinque righe quale decisione concreta dovrebbe migliorare grazie a queste statistiche, indicando metrica, unità di analisi, baseline e rischio principale. Se non riesci a nominare la decisione, la lezione è ancora troppo astratta. Al livello intermedio costruisci una tabella con quattro colonne (segnale osservato, interpretazione prudente, controllo necessario, azione consigliata) e includi almeno un caso in cui il segnale non basta per decidere. Al livello research-grade trasforma l’esercizio in un memo decisionale che includa assunzioni, criteri di esclusione, soglia di intervento, sensitivity check e una proposta di monitoraggio dopo la decisione. Come materiale usa un export reale, una tabella sintetica, una dashboard interna o un notebook di studio, con almeno una dimensione di segmento, una metrica osservabile e un periodo o baseline di confronto.

Errore tipico da evitare

L’errore tipico è usare distribuzione, varianza e covarianza come etichetta tecnica invece che come criterio di scelta. Succede quando il team presenta un numero senza dire quale decisione cambia, quale baseline lo rende interpretabile e quale rischio resta aperto: in quel caso il dato sembra preciso, ma non guida l’azione. Per tenere insieme i pezzi conviene mantenere alcuni controlli stabili: chiarire quale scelta deve cambiare dopo l’analisi, indicare quale evento o tabella rende osservabile il problema, verificare quale errore di raccolta o modellazione può alterare il risultato, scegliere un confronto che impedisca una lettura isolata e nominare la raccomandazione che diventa più difendibile.

Per controllare se hai davvero collegato analisi e azione, prova a rispondere prima di chiudere: quale decisione concreta dovrebbe migliorare, quale unità di analisi rende il problema misurabile, quale baseline useresti per evitare una lettura isolata, quale assunzione cambierebbe la conclusione se fosse falsa e quale controllo presenteresti a uno stakeholder.

Riepilogo

Distribuzione, aspettativa, varianza e covarianza diventano utili quando riducono l’incertezza su una scelta reale. La forma corretta della lezione resta decisione, segnale, baseline, rischio e azione: tutto il resto serve solo se rende più affidabile uno di questi passaggi. Se un esempio, una formula o un frammento tecnico non chiarisce almeno uno di questi punti, va trattato come dettaglio secondario.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Collegamento tematicoReal-Time Analytics & ClickHouse SystemsFondamenti di stream processingIntroduzione allo stream processing: differenza tra batch e real-time, architetture e pattern fondamentali.Collegamento tematicoS3, Data Lake e Lakehouse ArchitecturePrestazioni e ottimizzazione query su S3Tecniche avanzate per query veloci su data lake: caching, materializzazione, statistiche.Collegamento tematicoAnalytics Engineering con dbt e Semantic Layerdbt fundamentals e project structuredbt fundamentals e project structure. Lezione su come configurare e strutturare un progetto dbt.Collegamento tematicoAnalytics Engineering con dbt e Semantic LayerTest, contracts e fiducia nei modelliTest, contracts e fiducia nei modelli. Lezione su come garantire la qualità dei dati con dbt.Collegamento tematicoAdvanced SQL for Analytical SystemsCohort analysis in SQLCohort analysis in SQL. Lezione core del modulo Advanced SQL for Analytical Systems con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.Collegamento tematicoAdvanced SQL for Analytical SystemsFunnel analysis in SQLFunnel analysis in SQL. Lezione core del modulo Advanced SQL for Analytical Systems con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.