Vai al contenuto principale
Copertina editoriale del modulo Fondamenti Filosofici dell Analisi dei Dati

Dalla causalità classica al futuro dell'analisi dati

Come il pensiero causale sta ridefinendo il ruolo dell'analista nell'era dell'AI.

AD
Creato da Andrii Dyshkantiuk
Lezione 214 / 216 Livello: Avanzato Durata: 18 min Prerequisiti: 1

Cosa imparerai

  • Comprendere il problema analitico e il contesto decisionale
  • Applicare esempi, metriche e controlli a casi reali

Dalla causalità classica al futuro dell’analisi dati

Esperimenti, DAG, modelli predittivi e sistemi AI promettono decisioni più veloci, ma la domanda antica resta la stessa: quale legame possiamo difendere tra intervento e risultato? Dalla causalità classica al futuro dell’analisi dati mostra che la modernità degli strumenti non elimina il bisogno di pensare bene le cause.

Una scena da cui partire

Leggi la lezione come una linea di continuità: cambiano linguaggi, dati e potenza computazionale, ma rimane il compito di distinguere previsione, spiegazione, intervento e responsabilità.

  • Contesto: Quale domanda causale resta aperta anche con strumenti moderni?
  • Metodo: Quale tecnica risponde a previsione e quale a intervento?
  • Applicazione: Quale cautela manterresti usando un modello più potente?

Le tre ondate dell’analisi dati

OndataPeriodoDomanda centraleRuolo dell’analista
1. Contabilità1950-1990Cosa è successo?Riportare il passato accuratamente
2. Descrittiva/predittiva1990-2020Cosa sta succedendo? Cosa succederà?Dashboard, forecasting, modelli predittivi
3. Causale/prescrittiva2020-oggiPerché succede? Cosa devo fare?Causal inference, decision intelligence

La terza ondata è quella in cui entrano in gioco tutte le idee di questo modulo: Aristotele per distinguere i tipi di spiegazione, Hume per ricordare i limiti dell’induzione, Popper per progettare test falsificabili, Pearl per modellare la struttura causale, Kuhn per navigare i paradigmi organizzativi.

Cosa significa per la tua carriera

L’analyst del futuro non è quello che sa più SQL o Python. È quello che sa fare domande migliori. Non “quanto vale questa metrica?” ma “quale decisione supporta questa metrica? Quali assunzioni sto facendo? Cosa mi farebbe cambiare idea?”

Tre competenze differenzianti:

  1. Causal literacy: saper distinguere tra associazione, intervento e controfattuale, e saper scegliere lo strumento giusto per il livello giusto.

  2. Uncertainty communication: parlare di incertezza in modo onesto e utile agli stakeholder. Non “siamo sicuri al 95%” ma “ecco tre scenari, ecco cosa li distingue, ecco come sapremo quale è reale.”

  3. Epistemic humility: riconoscere i limiti di ciò che i dati possono dirti. L’analyst che ammette “non lo so, ma ecco come possiamo scoprirlo” è più prezioso di quello che finge certezza.

Checklist per il futuro

  • Ho un progetto che dimostra causal inference, non solo correlazione
  • Comunico incertezza con scenari, non con singoli numeri
  • So identificare Simpson’s paradox in un report
  • Applico Popper: le mie analisi sono falsificabili
  • Pratico l’umiltà epistemologica nei report

Riferimenti:

  • Pearl, J. & Mackenzie, D. (2018). The Book of Why. Basic Books.
  • Agrawal, A., Gans, J. & Goldfarb, A. (2018). Prediction Machines. Harvard Business Review Press.
  • Kozyrkov, C. (2022). “Decision Intelligence.” Google AI Blog.

Approfondimento operativo: leggere dalla causalità classica al futuro dell’analisi dati come sistema

In un progetto reale, dalla causalità classica al futuro dell’analisi dati non vive mai isolato. È parte di un sistema più ampio fatto di decisioni, dati disponibili, vincoli tecnici, incentivi organizzativi e qualità dell’esecuzione. Il rischio dell’analista principiante è trattare il tema come una definizione: imparare il nome, ricordare due formule, applicare un template. Il lavoro professionale è diverso: bisogna capire quale problema risolve, quali assunzioni contiene e cosa succede quando quelle assunzioni non sono vere.

Nel contesto di filosofia analisi dati, la prima domanda da fare non è “quale metrica calcolo?” ma: quale decisione dovrà essere presa grazie a questa analisi? Una dashboard, una query o un modello statistico hanno valore solo se riducono incertezza decisionale. Se non cambiano una scelta, sono documentazione o teatro analitico.

Un buon modo per impostare il lavoro è usare questa sequenza:

  1. definire il problema in linguaggio business;
  2. identificare l’unità di analisi corretta: utente, account, evento, sessione, ordine, campagna;
  3. controllare se i dati misurano davvero il fenomeno o solo una sua ombra;
  4. costruire una metrica interpretabile;
  5. segmentare per evitare che la media nasconda pattern opposti;
  6. trasformare il risultato in una raccomandazione verificabile.

Caso reale: Netflix e la disciplina delle metriche

Netflix è un esempio utile perché ha costruito molte decisioni di prodotto intorno a segnali comportamentali osservabili: completamento degli episodi, tempo di ricerca prima della riproduzione, abbandono dopo pochi minuti, ritorno nella settimana successiva, efficacia delle raccomandazioni. Il punto non è che ogni azienda debba copiare Netflix. Il punto è metodologico: il dato non viene trattato come ornamento, ma come infrastruttura decisionale.

Quando Netflix valuta una modifica all’esperienza — una nuova riga di raccomandazioni, una diversa immagine di copertina, un algoritmo di ranking — non misura solo il click immediato. Misura anche segnali di qualità: l’utente guarda davvero il contenuto? torna nei giorni successivi? riduce il tempo speso a cercare? aumenta la soddisfazione implicita? Questa disciplina impedisce di ottimizzare vanity metric che sembrano positive nel breve ma danneggiano valore nel lungo periodo.

Lo stesso principio vale qui: dalla causalità classica al futuro dell’analisi dati deve essere collegato a un outcome. Se il risultato non aiuta a scegliere tra due azioni alternative, l’analisi è incompleta.

Esempio SQL: costruire una vista di controllo

Il pattern seguente è volutamente generico ma eseguibile nella maggior parte dei warehouse moderni. L’obiettivo è creare una base analitica con metrica, segmento e finestra temporale, così da poter confrontare periodi e gruppi senza riscrivere la logica ogni volta.

Elemento della vista di controlloPerché serve
Utente, account e settimanaMantengono una granularità adatta a segmentare senza perdere storia
Sorgente e devicePermettono di separare effetto reale da composizione del traffico
Eventi totali e giorni attiviDistinguono volume da continuità di comportamento
Diversita degli eventiAiuta a vedere se l’utente esplora davvero il prodotto
Outcome chiave raggiuntoCollega comportamento e risultato decisionale

Una vista di controllo causale non nasce per “fare reporting”: nasce per rendere confrontabili segmenti, tempi e assunzioni prima di parlare di effetto.

Questa query non pretende di essere la risposta finale. Serve a creare una superficie di osservazione: trend, segmenti, differenze tra canali, variazioni nel tempo. Da qui l’analista può formulare ipotesi più precise.

Esempio Python: controllare stabilità e anomalie

Una metrica utile deve essere stabile abbastanza da orientare decisioni e sensibile abbastanza da segnalare cambiamenti reali. In Python possiamo controllare variazioni anomale settimana su settimana.

Controllo di stabilitàLettura pratica
Variazione settimana su settimanaMostra se il segnale cambia bruscamente
Media mobile a 4 settimaneDistingue trend da oscillazione breve
Deviazione standard mobileStima quanto rumore e normale nel segmento
Z-scoreEvidenzia anomalie rispetto alla storia recente
Lista anomaliePorta in review solo i casi che meritano spiegazione

Il controllo non dimostra causalità da solo. Serve a decidere dove investigare prima, evitando che ogni picco diventi automaticamente una storia causale.

Il valore di questo controllo è pratico: evita di reagire a ogni oscillazione casuale, ma segnala quando una variazione merita investigazione. In un contesto aziendale, questo tipo di analisi può alimentare alert, review settimanali e retrospettive di prodotto.

Errori comuni da evitare

Il primo errore è lavorare su dati aggregati troppo presto. Una media globale può nascondere due segmenti che si muovono in direzioni opposte. Il secondo errore è non controllare la qualità del dato: eventi duplicati, tracking incompleto, timezone incoerenti e cambi di definizione possono produrre conclusioni false. Il terzo errore è confondere correlazione e causalità: se gli utenti che usano una feature convertono di più, non significa automaticamente che la feature causi conversione. Potrebbero usarla perché sono già più motivati.

Per ridurre questi rischi, ogni analisi dovrebbe includere almeno tre controlli: definizione esplicita della metrica, confronto per segmento e verifica contro un periodo precedente o gruppo di controllo.

Dalla causalità classica al futuro dell’analisi dati va trattato come uno strumento decisionale, non come un argomento da manuale. Il valore nasce quando colleghi problema, dati, metrica, segmentazione e azione. Una buona analisi non termina con “il numero è salito” o “il numero è sceso”. Termina con una frase operativa: quale decisione prendiamo, con quale livello di confidenza, e quale metrica useremo per sapere se avevamo ragione.

Problema reale

Nel lavoro su fondamenti filosofici dell’analisi dati, Dalla causalità classica al futuro dell’analisi dati serve a risolvere un problema concreto: capire quando un dato sostiene davvero una decisione e quando invece nasconde assunzioni, bias, causalità fragile o una domanda formulata male. La domanda non è se il concetto sia interessante in astratto, ma quale decisione migliora quando lo applichi con dati affidabili e con una soglia di errore esplicita.

Questa lezione va studiata come uno strumento operativo: entro la fine devi saper Comprendere il problema analitico e il contesto decisionale; Applicare esempi, metriche e controlli a casi reali. Se non riesci a collegare il concetto a una scelta reale, la conoscenza resta decorativa e non diventa competenza.

Modello concettuale

flowchart LR
    A["Osservazione"]
    B["Assunzione"]
    C["Modello"]
    D["Evidenza"]
    E["Decisione"]
    A --> B
    B --> C
    C --> D
    D --> E

Il modello mentale e sequenziale: prima si formula la domanda, poi si traduce in unità osservabili, quindi si valuta la qualità del dato e solo alla fine si decide. Saltare un passaggio produce analisi eleganti ma fragili.

PassaggioDomanda guidaOutput atteso
FramingQuale decisione deve cambiare?Una scelta concreta, non una curiosità
MisuraQuale segnale rappresenta il fenomeno?Metrica, fonte e granularità
ConfrontoRispetto a quale baseline interpreto il risultato?Benchmark o controfattuale plausibile
AzioneChe cosa faccio se il segnale supera la soglia?Decisione, owner e prossimo controllo

Formalizzazione rigorosa

Formalizza Dalla causalità classica al futuro dell’analisi dati come una relazione tra quattro elementi: unità di analisi, segnale, baseline e decisione. Nel contesto di questa lezione l’unità principale e osservazione, ipotesi, variabile, meccanismo causale o criterio di evidenza. Il segnale da osservare deve essere collegato a forza dell evidenza, coerenza causale, robustezza delle assunzioni e costo dell errore decisionale, mentre la baseline deve essere scelta tra spiegazione alternativa, controfattuale, gruppo comparabile o scenario senza intervento.

Una formulazione robusta segue questa logica:

ElementoDefinizione operativa per questa lezione
Unitàosservazione, ipotesi, variabile, meccanismo causale o criterio di evidenza
Segnaleforza dell evidenza, coerenza causale, robustezza delle assunzioni e costo dell errore decisionale
Baselinespiegazione alternativa, controfattuale, gruppo comparabile o scenario senza intervento
Decisioneaccettare, rifiutare o riformulare una spiegazione prima di usarla in un contesto aziendale
RischioConfondere correlazione, qualità del dato e causalità decisionale

La regola pratica e semplice: una misura e utile solo se riduce l’incertezza su una decisione specifica. Se non cambia una scelta, e documentazione; se cambia una scelta senza controlli, e rischio.

Esempio o caso studio

Un comitato interpreta una crescita di retention come prova che una nuova iniziativa abbia funzionato. La lezione costringe a distinguere osservazione, spiegazione, assunzione e decisione prima di trasformare il dato in azione.

Applicando Dalla causalità classica al futuro dell’analisi dati, il team costruisce una lettura in tre colonne: cosa sappiamo, cosa assumiamo e quale decisione prendiamo. Questo formato impedisce di presentare un numero come se fosse una conclusione autosufficiente.

EvidenzaInterpretazione prudenteDecisione conseguente
Segnale positivo ma non isolatoIl fenomeno esiste, ma la causa e ancora incertaCercare baseline o holdout
Segmento con risposta diversaL’effetto medio nasconde eterogeneitaAnalizzare coorti o sottogruppi
Costo operativo crescenteIl risultato va valutato sul margineApplicare soglie economiche

Lab / esercizio

Livello base

Prendi una decisione reale collegata a Dalla causalità classica al futuro dell’analisi dati e scrivi in cinque righe: obiettivo, metrica primaria, baseline, rischio principale e azione prevista. Non usare più di una metrica primaria.

Livello intermedio

Costruisci una tabella con almeno tre segmenti o scenari. Per ciascuno indica segnale, possibile spiegazione alternativa e controllo necessario prima di decidere.

Livello research-grade

Disegna un piano di validazione: ipotesi, dati necessari, criterio di esclusione, soglia decisionale e controllo post-decisione. Specifica anche che cosa ti farebbe cambiare idea.

Dataset e materiali consigliati

Usa case study decisionali, metriche prodotto, risultati di esperimenti, DAG semplici, report analitici e serie storiche simulate. Se non hai dati reali, crea un dataset sintetico con 200-500 righe e almeno una colonna temporale, una colonna segmento, una metrica di outcome e una variabile di esposizione.

Errore tipico da evitare

L’errore più frequente e trattare Dalla causalità classica al futuro dell’analisi dati come una definizione da ricordare invece che come un protocollo decisionale. In pratica succede quando si presenta una metrica senza baseline, un grafico senza ipotesi, o una raccomandazione senza costo dell’errore.

Un controllo utile è chiedersi: “se questo risultato fosse falso o instabile, quale decisione sbaglierei?”. Se la risposta non è chiara, la lezione non è ancora stata applicata davvero.

Quiz o checkpoint

  1. Qual è la decisione concreta che questa lezione dovrebbe migliorare?
  2. Quale baseline rende interpretabile il risultato?
  3. Quale assunzione, se sbagliata, cambierebbe la conclusione?
  4. Quale controllo minimo useresti prima di presentare la raccomandazione?

Riepilogo operativo

Dalla causalità classica al futuro dell’analisi dati e una competenza utile quando collega concetto, dato e decisione. Studiala partendo da un problema reale, formalizza il segnale, cerca una baseline credibile, costruisci un esempio e chiudi con un controllo pratico. Categoria: Fondamenti. Difficoltà: advanced. Tempo stimato: 18 min.