Modelli e assunzioni - immagine ufficiale della lezione su GinnyTech

Modelli, assunzioni e misspecification

Le assunzioni nascoste nei modelli statistici e come riconoscerle prima che facciano danni.

Creato daAndrii Dyshkantiuk

Lezione 209 / 236Livello: AvanzatoDurata: 18 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

Correlazione, causalità e controfattuali

Modelli, assunzioni e misspecification

Un modello può sbagliare in modo silenzioso, e questo è il caso più pericoloso. Una regressione che prevede bene le vendite medie ma fallisce sistematicamente nei weekend, durante le promozioni o sui clienti nuovi non è semplicemente imprecisa: risponde a una domanda più ristretta di quella che interessa al business. Questo scarto ha un nome, misspecification, e questa lezione serve a riconoscerlo prima che si trasformi in una decisione sbagliata.

Quando il modello risponde alla domanda sbagliata

Il punto centrale è distinguere quando un dato o un modello sostiene davvero una decisione e quando invece nasconde assunzioni fragili, bias o una domanda mal formulata. In un contesto aziendale la conoscenza diventa utile solo se riduce l’incertezza su una scelta concreta e mette in chiaro dove si annida il rischio di errore.

Dalla domanda alla decisione

Il percorso mentale è sequenziale: si formula la domanda, si traducono i concetti in unità osservabili, si valuta la qualità del dato e solo alla fine si decide. Saltare passaggi produce analisi fragili.

flowchart LR
    A["Osservazione"]
    B["Assunzione"]
    C["Modello"]
    D["Evidenza"]
    E["Decisione"]
    A --> B
    B --> C
    C --> D
    D --> E

Le stesse tappe diventano domande operative, ognuna con un esito da fissare prima di proseguire.

Passaggio	Domanda guida	Output atteso
Framing	Quale decisione deve cambiare?	Scelta concreta, non curiosità
Misura	Quale segnale rappresenta il fenomeno?	Metrica, fonte, granularità
Confronto	Rispetto a quale baseline interpreto il risultato?	Benchmark o controfattuale
Azione	Che cosa faccio se il segnale supera la soglia?	Decisione, owner, prossimo controllo

Gli elementi del ragionamento

Conviene nominare gli elementi in gioco, incluso il rischio specifico di confondere piani diversi.

Elemento	Definizione operativa
Unità	osservazione, ipotesi, variabile, meccanismo causale o criterio di evidenza
Segnale	forza dell’evidenza, coerenza causale, robustezza delle assunzioni, costo dell’errore decisionale
Baseline	spiegazione alternativa, controfattuale, gruppo comparabile, scenario senza intervento
Decisione	accettare, rifiutare o riformulare una spiegazione prima dell’uso aziendale
Rischio	confondere correlazione, qualità del dato e causalità decisionale

Una misura vale qualcosa solo se riduce l’incertezza su una decisione specifica. Se non cambia nessuna scelta è decorativa, e se cambia una scelta senza controlli è rischiosa.

Le assunzioni nascoste in ogni modello

Ogni modello è una semplificazione della realtà che poggia su assunzioni, esplicite o implicite. La regressione lineare OLS, per esempio, si regge su quattro assunzioni note come proprietà BLUE: linearità, indipendenza degli errori, omoschedasticità e normalità degli errori. Quando queste vengono violate compaiono bias e inferenze sbagliate.

Nel machine learning il discorso non cambia, cambiano le assunzioni. Quella di dati indipendenti e identicamente distribuiti (IID) e quella di stazionarietà sono spesso date per scontate e altrettanto spesso violate nel mondo reale, ed è da lì che nasce il model drift.

Riconoscere i sintomi prima del danno

La misspecification raramente arriva con un fallimento clamoroso. Di solito manda segnali più discreti. C’è una discrepanza tra le metriche di fit e la performance sui dati nuovi, il classico overfitting. I coefficienti si fanno instabili a causa della multicollinearità. Nei residui compaiono pattern che violano l’ipotesi di rumore bianco. Oppure la performance offline e quella online divergono, segno che qualche assunzione chiave è saltata. Imparare a leggere questi indizi è ciò che separa un modello monitorato da uno che si rompe in silenzio.

Caso pratico: Netflix e Stripe alle prese con assunzioni che saltano

Netflix convive con la non stazionarietà dei gusti, che cambiano nel tempo e mandano in crisi qualsiasi modello addestrato sul passato. La risposta combina più strumenti: un decadimento temporale che dà più peso ai dati recenti, un ensemble di modelli specializzati su aspetti diversi e un’esplorazione attiva tramite contextual bandits per adattarsi ai cambiamenti man mano che emergono. È così che le raccomandazioni restano rilevanti e il churn resta sotto controllo.

Stripe Radar affronta un problema diverso, la multicollinearità tra le variabili predittive nelle frodi. Qui servono modelli robusti come il Gradient Boosting e un feature engineering accurato, che insieme migliorano la capacità di intercettare le frodi senza far esplodere i falsi positivi. In entrambi i casi il punto non è il modello in sé, ma la consapevolezza dell’assunzione che potrebbe cedere.

Validare e monitorare sul serio

La validazione non si esaurisce con un semplice split tra training e test. Sulle serie temporali serve un time-series split, altrimenti si rischia di far “vedere il futuro” al modello in fase di addestramento. Una volta in produzione, il monitoraggio continuo deve intercettare data drift e concept drift, e per farlo si appoggia a test statistici come quello di Kolmogorov-Smirnov.

Un controllo operativo per il data drift si può descrivere anche senza scrivere codice, ragionando per domande.

Passaggio	Domanda	Decisione
Campione storico	Quale distribuzione rappresenta il comportamento atteso?	Definire il riferimento
Campione recente	La produzione si comporta ancora nello stesso modo?	Misurare lo scarto
Test statistico	Lo scarto e compatibile con rumore normale?	Aprire o chiudere l’allarme
Impatto business	Lo scarto cambia la decisione o solo una metrica tecnica?	Intervenire, monitorare o ignorare

Provare il metodo su una decisione vera

Per fissare il ragionamento conviene legarlo a una decisione reale su modelli e assunzioni. Descrivi in poche righe obiettivo, metrica primaria, baseline, rischio e azione. Poi costruisci una tabella con almeno tre segmenti o scenari, indicando per ciascuno il segnale, una spiegazione alternativa e il controllo necessario. Chi vuole approfondire può disegnare un piano di validazione completo: ipotesi, dati, criteri di esclusione, soglia decisionale, controllo successivo alla decisione e le condizioni che lo farebbero cambiare idea.

Se mancano dati reali basta un dataset sintetico con almeno una colonna temporale, una di segmento, una metrica di outcome e una variabile di esposizione. Sono materiali sufficienti per esercitarsi su case study decisionali, metriche di prodotto, esperimenti e DAG.

L’errore che svuota il metodo

L’errore tipico è trattare modelli e assunzioni come definizioni astratte invece che come protocolli da usare. Presentare metriche senza baseline o raccomandazioni che ignorano il costo dell’errore è più comune di quanto si pensi. La domanda da tenere sempre in tasca è semplice: se questo risultato fosse falso, quale decisione sbaglierei? Vale la pena ripercorrerla anche come verifica finale, chiedendosi qual è la decisione concreta da migliorare, quale baseline rende leggibile il risultato, quale assunzione ne cambierebbe la conclusione se fosse sbagliata e quale controllo minimo mettere prima di portare la raccomandazione a chi decide.

Riepilogo operativo

Gestire modelli, assunzioni e misspecification significa collegare concetto, dato e decisione. Si parte da un problema reale, si formalizza il segnale, si sceglie una baseline credibile, si costruiscono esempi e si chiude con controlli pratici. È questa la competenza che rende affidabili le decisioni prese sotto incertezza.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Collegamento tematicoPanoramica del Corso e Metodo di Studio per Data Work'Reproducibility mindset: rigore prima della velocita'Reproducibility mindset: rigore prima della velocita. Lezione core del modulo Panoramica del Corso e Metodo di Studio per Data Work con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.Collegamento tematicoDirezioni in Analitica: Marketing, Prodotto, FinanzaForecasting e planning cycles aziendaliForecasting e planning cycles aziendali. Lezione su modelli di previsione e cicli di pianificazione.Collegamento tematicoPanoramica del Corso e Metodo di Studio per Data WorkCome si studia materiale tecnico senza dimenticarloCome si studia materiale tecnico senza dimenticarlo. Lezione narrativa del modulo Panoramica del Corso e Metodo di Studio per Data Work: metodo 40-10-10, richiamo attivo, revisione distribuita e applicazione pratica allo studio tecnico.Collegamento tematicoMetriche, KPI Trees e Fondamenti AnaliticiCohort logic, segmentazione e baseline corretteCome usare coorti, segmenti e baseline per confrontare fenomeni nel tempo senza confondere mix utenti, stagionalita e cambiamenti reali.Collegamento tematicoMetriche, KPI Trees e Fondamenti AnaliticiSegnale, rumore, variazione normale e falsi allarmiCome distinguere cambiamenti reali da normale variabilita dei dati usando baseline, soglie, volume, stagionalita e controllo del rumore.Collegamento tematicoSignificativita Statistica, A/B Testing e Experimentation ScienceFondamenti della significativita statisticaIpotesi nulla e alternativa, distribuzione campionaria, statistica test e p-value. Dalla lezione del tè di Ronald Fisher (1925) al test A/A numerico, con limiti del testing frequentista e template di validazione operativa.