Correlazione e causalità - immagine ufficiale della lezione su GinnyTech

Correlazione, causalità e controfattuali

Perché 'correlazione non implica causalità è solo l'inizio della storia.

Creato daAndrii Dyshkantiuk

Lezione 208 / 236Livello: AvanzatoDurata: 18 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

Etica degli algoritmi e responsabilità analitica

Correlazione, causalità e controfattuali

“Correlazione non implica causalità” è la frase che tutti conoscono e quasi nessuno applica fino in fondo. Quando si decide sui dati, distinguere le due cose è la differenza tra una conclusione che regge e una che convince solo finché nessuno la mette alla prova. Il pezzo che di solito manca è il controfattuale: per dire che qualcosa ha causato un effetto, bisogna chiedersi cosa sarebbe successo senza quella causa.

L’aumento che vuole un padre

Immagina un team che vede le conversioni salire durante una campagna e vorrebbe attribuirsene il merito. Il problema è che nello stesso periodo sono cambiati anche il prezzo, il traffico organico e la composizione degli utenti. Come si fa a sapere se l’aumento viene davvero dalla campagna? Qui la distinzione tra correlazione, causalità e controfattuale smette di essere teoria. Per affermare “ha causato” serve immaginare lo scenario in cui l’intervento non c’è stato e confrontarlo con quello osservato.

Dalla domanda alla decisione

Il ragionamento causale segue un percorso ordinato: si formula la domanda, la si traduce in dati osservabili, si valuta la qualità del dato e solo alla fine si decide. Saltare uno di questi passaggi porta a conclusioni fragili.

flowchart LR
    A["Osservazione"]
    B["Assunzione"]
    C["Modello"]
    D["Evidenza"]
    E["Decisione"]
    A --> B
    B --> C
    C --> D
    D --> E

Le stesse tappe si possono leggere come domande operative, ognuna con un esito da fissare prima di proseguire.

Passaggio	Domanda guida	Output atteso
Framing	Quale decisione deve cambiare?	Una scelta concreta, non una curiosità
Misura	Quale segnale rappresenta il fenomeno?	Metrica, fonte e granularità
Confronto	Rispetto a quale baseline interpreto il risultato?	Benchmark o controfattuale plausibile
Azione	Che cosa faccio se il segnale supera la soglia?	Decisione, owner e prossimo controllo

Gli elementi della causalità

La causalità si lascia formalizzare come una relazione tra quattro elementi, utili da nominare prima di interpretare qualsiasi numero.

Elemento	Definizione operativa
Unità	osservazione, ipotesi, variabile, meccanismo causale o criterio di evidenza
Segnale	forza dell’evidenza, coerenza causale, robustezza delle assunzioni e costo dell’errore decisionale
Baseline	spiegazione alternativa, controfattuale, gruppo comparabile o scenario senza intervento
Decisione	accettare, rifiutare o riformulare una spiegazione prima di usarla in un contesto aziendale

Una misura vale qualcosa solo se riduce l’incertezza su una decisione specifica. Se non cambia nessuna scelta è documentazione, e se cambia una scelta senza controlli è rischio.

Caso pratico: la retention che cresce

Un team legge una crescita di retention come prova che una nuova iniziativa ha funzionato. È un salto comprensibile e quasi sempre prematuro. Applicando la distinzione tra correlazione, causalità e controfattuale, conviene mettere in colonna ciò che è evidenza, ciò che è interpretazione prudente e ciò che ne consegue per la decisione.

Evidenza	Interpretazione prudente	Decisione conseguente
Segnale positivo ma non isolato	Il fenomeno esiste, ma la causa è incerta	Cercare baseline o holdout
Segmento con risposta diversa	L’effetto medio nasconde eterogeneità	Analizzare coorti o sottogruppi
Costo operativo crescente	Il risultato va valutato sul margine	Applicare soglie economiche

La tabella tiene separate tre cose che la fretta tende a fondere: che il segnale ci sia, che abbia una causa precisa e che valga la pena agire.

Provare il metodo su una decisione vera

Per fissare il ragionamento conviene legarlo a una decisione reale. Descrivi in poche righe obiettivo, metrica primaria, baseline, rischio principale e azione prevista. Poi costruisci una tabella con almeno tre segmenti o scenari, indicando per ciascuno il segnale, una spiegazione alternativa plausibile e il controllo necessario prima di decidere. Chi vuole spingersi oltre può disegnare un piano di validazione con ipotesi, dati necessari, criteri di esclusione, soglia decisionale, controllo successivo alla decisione e le condizioni che lo farebbero cambiare idea.

Se non hai dati reali va bene un dataset sintetico con almeno 200 righe e colonne per tempo, segmento, outcome ed esposizione. Bastano per allenarsi su case study decisionali, metriche di prodotto, esiti di esperimenti e DAG semplici.

L’errore che svuota il concetto

Il rischio più comune è trattare correlazione, causalità e controfattuali come concetti astratti da memorizzare invece che come protocolli da applicare. Presentare metriche senza baseline, grafici senza ipotesi o raccomandazioni che ignorano il costo dell’errore porta a decisioni fragili.

Un controllo utile è domandarsi: se questo risultato fosse falso o instabile, quale decisione sbaglierei? Se la risposta non è chiara, il concetto è rimasto sulla pagina. Le stesse domande servono come verifica finale: qual è la decisione concreta da migliorare, quale baseline rende leggibile il risultato, quale assunzione ne cambierebbe la conclusione se fosse sbagliata e quale controllo minimo mettere prima di esporre la raccomandazione.

Riepilogo operativo

Saper distinguere correlazione, causalità e controfattuale serve a collegare concetto, dato e decisione. Si parte da un problema reale, si formalizza il segnale, si cerca una baseline credibile, si costruisce un esempio e si chiude con un controllo pratico. È così che la conoscenza diventa competenza operativa.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Collegamento tematicoMarketing Data Science, Forecasting e Decision ModelsMarketing data science: fondamenti e strategiaIntroduzione alla data science applicata al marketing: segmentazione, predizione e causalità.Collegamento tematicoMarketing Data Science, Forecasting e Decision ModelsAttribution modeling modernoDal last-click ai modelli incrementali: come leggere attribuzione e contributo reale dei canali senza confondere correlazione e causalità.Collegamento tematicoMetriche, KPI Trees e Fondamenti AnaliticiCorrelazione, proxy metric e lettura causale dei KPICome evitare letture causali improprie quando KPI, proxy metric e correlazioni sembrano raccontare una relazione più forte di quella realmente dimostrata.Collegamento tematicoAI per Analisi Dati, Data Engineering e AutoMLAnalisi esplorativa assistitaAnalisi esplorativa assistita su GinnyTech: decidere quali segnali meritano approfondimento e quali sono solo rumore descrittivo con controlli, ownership e output revisionabili.Collegamento tematicoPanoramica del Corso e Metodo di Studio per Data WorkCome si studia materiale tecnico senza dimenticarloCome si studia materiale tecnico senza dimenticarlo. Lezione narrativa del modulo Panoramica del Corso e Metodo di Studio per Data Work: metodo 40-10-10, richiamo attivo, revisione distribuita e applicazione pratica allo studio tecnico.Collegamento tematicoPanoramica del Corso e Metodo di Studio per Data Work'First principles: come ragiona un analista forte'First principles: come ragiona un analista forte. Lezione core del modulo Panoramica del Corso e Metodo di Studio per Data Work con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.