Cheat Sheet: Fondamenti e Metriche - immagine ufficiale della lezione su GinnyTech, creata da AD

Correlazione, proxy metric e lettura causale dei KPI

Come evitare letture causali improprie quando KPI, proxy metric e correlazioni sembrano raccontare una relazione più forte di quella realmente dimostrata.

Creato daAndrii Dyshkantiuk

Lezione 21 / 236Livello: BaseDurata: 18 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

Segnale, rumore, variazione normale e falsi allarmi

Correlazione, proxy metric e lettura causale dei KPI

Una proxy metric può essere utilissima e pericolosa nello stesso momento. Click, visite, tempo speso: spesso anticipano il valore reale, ma a volte lo sostituiscono in modo pigro, e il team finisce per inseguire il numero invece dell’effetto che il numero dovrebbe rappresentare. Questa lezione serve a capire quando un indicatore è un ponte verso l’outcome e quando è solo una scorciatoia comoda.

Quando una proxy smette di rappresentare il valore

Nel nostro lavoro l’affermazione “correlazione non implica causalità” è ripetuta talmente spesso da rischiare di perdere la sua forza. Ignorarla, però, resta la via più rapida per prendere decisioni disastrose basate sui dati.

Una correlazione statistica, in termini formali, indica solo che due o più variabili si muovono insieme secondo uno schema riconoscibile. Se la variabile A aumenta, anche B tende ad aumentare (correlazione positiva) o a diminuire (correlazione negativa). Il coefficiente di correlazione di Pearson restituisce un valore tra -1 e +1 che quantifica forza e direzione di questa relazione lineare. Un valore di +0.8 indica un’associazione positiva molto forte. Il problema nasce quando il nostro cervello, costruito per riconoscere pattern e fabbricare narrazioni causa-effetto, osserva quel +0.8 e conclude subito che A provoca B.

Tre ragioni per cui la correlazione inganna

La realtà è quasi sempre più complessa. La prima ragione è la pura coincidenza, soprattutto in dataset con migliaia di variabili: su un numero abbastanza grande di confronti è statisticamente garantito trovare correlazioni spurie e assurde, come quella celebre tra il consumo pro capite di formaggio negli Stati Uniti e il numero di persone morte aggrovigliate nelle lenzuola.

La seconda è più insidiosa: la causalità inversa. Potremmo osservare che i clienti che usano la feature X hanno una retention più alta e concludere che X aumenta la retention. Potrebbe essere vero il contrario. I clienti più fidelizzati e soddisfatti sono quelli che esplorano di più il prodotto e finiscono per scoprire e usare la feature X. In questo caso non è la feature a tenerli legati, è il loro legame a portarli alla feature.

La terza è una variabile nascosta che muove entrambe. Quando due numeri salgono insieme, prima di disegnare una freccia conviene chiedersi se non ci sia un terzo fattore che li spinge tutti e due.

Come leggere un KPI prima di fidarti

Conviene leggere ogni indicatore come una serie di controlli rapidi. Qual è l’outcome reale che vuoi muovere. Quale proxy lo rappresenta. Quale comportamento indesiderato quella proxy può incentivare. Quale prova ti servirebbe per fidarti del collegamento. La causalità non si improvvisa guardando due linee che salgono insieme.

Passaggio	Domanda da fare	Output atteso
Decisione	Che cosa cambia se capiamo meglio la relazione tra proxy e outcome?	Scelta esplicita
Segnale	Quale dato osservabile riduce l’incertezza?	Metrica o evento
Baseline	Rispetto a cosa interpretiamo il risultato?	Confronto credibile
Vincolo	Che cosa può falsare la lettura?	Assunzione da dichiarare
Azione	Quale passo operativo segue?	Raccomandazione controllabile

Ogni riga deve rendere più chiaro il costo di una decisione sbagliata, altrimenti diventa un rituale vuoto.

Rendere visibili le assunzioni

Formalizzare non significa complicare. Significa scrivere nero su bianco le ipotesi, così uno stakeholder può discutere il criterio decisionale invece di fidarsi del risultato per autorità. Conviene fissare cinque elementi prima di leggere il dato.

Elemento	Definizione operativa	Controllo minimo
Unità di analisi	Oggetto su cui misuri il fenomeno	Utente, account, evento, ordine o periodo
Variabile osservata	Segnale che rappresenta il comportamento	Definizione stabile e tracciabile
Baseline	Stato contro cui confronti il segnale	Periodo, segmento, controllo o benchmark
Soglia decisionale	Punto in cui cambia l’azione	Criterio scritto prima della lettura
Rischio residuo	Errore che può restare anche dopo l’analisi	Sensitivity check o revisione qualitativa

Un caso concreto

Immagina un team che deve decidere se cambiare una pipeline, una metrica, un investimento o una dashboard sulla base di una correlazione osservata. La domanda non è “qual è la definizione corretta?” ma “quale scelta diventa meno rischiosa se questa analisi è fatta bene?”.

Situazione	Lettura prudente	Decisione
Il dato migliora ma la baseline è debole	Il segnale potrebbe essere reale o dipendere dal campione	Rafforzare il confronto prima di scalare
La metrica cambia in un solo segmento	L’effetto medio nasconde eterogeneità	Separare coorti o casi d’uso
Il costo operativo aumenta	Il beneficio va valutato sul margine	Applicare una soglia economica esplicita
Il sistema produce numeri incoerenti	La fiducia nel dato è parte della decisione	Correggere ownership e controlli

Esercizio

Parti da un livello base. Scrivi in cinque righe quale decisione concreta dovrebbe migliorare grazie a una lettura corretta della correlazione tra proxy e outcome. Indica metrica, unità di analisi, baseline e rischio principale. Se non riesci a nominare la decisione, il problema è ancora troppo astratto.

Al livello intermedio costruisci una tabella con quattro colonne: segnale osservato, interpretazione prudente, controllo necessario, azione consigliata. Usa almeno un caso in cui il segnale non basta per decidere.

Al livello research-grade trasforma l’esercizio in un memo decisionale che includa assunzioni, criteri di esclusione, soglia di intervento, sensitivity check e una proposta di monitoraggio dopo la decisione. Per i dati ti basta un export reale, una tabella sintetica, una dashboard interna o un notebook di studio, purché contenga almeno una dimensione di segmento, una metrica osservabile e un periodo di confronto.

L’errore tipico

L’errore più comune è usare la correlazione come etichetta tecnica invece che come criterio di scelta. Succede quando il team presenta un numero senza dire quale decisione cambia, quale baseline lo rende interpretabile e quale rischio resta aperto. In quel caso il dato sembra preciso, ma non guida nessuna azione. Per controllarti puoi rispondere a poche domande: quale decisione dovrebbe cambiare, quale unità di analisi rende il problema misurabile, quale baseline eviti di leggere il numero isolato, quale assunzione se falsa ribalterebbe la conclusione, quale controllo presenteresti prima di raccomandare un’azione.

Riepilogo

La correlazione è utile quando riduce l’incertezza su una scelta reale, non quando decora una slide. La forma corretta del ragionamento resta sempre la stessa: decisione, segnale, baseline, rischio e azione. Un esempio, una formula o un frammento tecnico vale la pena tenerlo solo se rende più affidabile uno di questi passaggi.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Collegamento tematicoPanoramica del Corso e Metodo di Studio per Data Work'First principles: come ragiona un analista forte'First principles: come ragiona un analista forte. Lezione core del modulo Panoramica del Corso e Metodo di Studio per Data Work con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.Collegamento tematicoAnalytics Engineering con dbt e Semantic LayerSemantic layer e metric definitionsSemantic layer e metric definitions. Lezione sul livello semantico in dbt e metriche riusabili.Collegamento tematicoProduct Analytics e Growth DiagnosticsIntroduzione alla product analyticsFondamenti di product analytics: metriche, framework e la mentalità dell'analista di prodotto.Collegamento tematicoFondamenti Filosofici dell Analisi dei DatiFrancis Bacon: induzione e idoli della menteI bias cognitivi che distorcono la lettura dei dati, dal 1620 ad oggi.Collegamento tematicoDirezioni in Analitica: Marketing, Prodotto, Finanza'KPI trees per funzione: differenze e intersezioni'KPI trees per funzione: come costruire e allineare metriche tra i dipartimenti.Collegamento tematicoFondamenti Filosofici dell Analisi dei DatiJudea Pearl, DAG e rivoluzione causaleCome Pearl ha trasformato la statistica da descrittiva a causale e cosa significa per l'analista.