Regressione come geometria - immagine ufficiale della lezione su GinnyTech

Regressione come geometria + ottimizzazione intuitiva

La regressione vista come proiezione geometrica e problema di minimizzazione.

Creato daAndrii Dyshkantiuk

Lezione 158 / 236Livello: AvanzatoDurata: 22 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

Legge dei grandi numeri e teorema del limite centrale

import pandas as pd

Regressione come geometria + ottimizzazione intuitiva

Questa lezione tratta la regressione come una scelta operativa, non come un teorema da memorizzare. La categoria è tecnica, ma il punto non è accumulare definizioni: è capire quale decisione cambia quando capisci davvero cosa sta facendo il modello sotto il cofano. Hai una nuvola di punti con prezzo, sconto, traffico e conversione, e il management chiede quanto pesa davvero lo sconto. La regressione promette una risposta, ma quella risposta ha senso solo se sai che geometricamente sta cercando una direzione che spiega i dati meglio di altre.

Dal problema alla decisione

Il problema vero non è conoscere la regressione in astratto. È decidere cosa fare quando il team ha dati incompleti, metriche ambigue o vincoli tecnici che rendono fragile la lettura del fenomeno. Una lezione utile separa il segnale dal rumore, dice quale baseline usare e indica quale azione diventa più difendibile dopo l’analisi.

Pensare la regressione come geometria ti aiuta a evitare due errori opposti: trattarla come una scatola magica o come una formula da applicare sempre. È un modo per proiettare il fenomeno su una struttura più semplice, sapendo che ogni semplificazione lascia fuori qualcosa. Prima osservi lo spazio dei dati, poi scegli una forma semplice, poi misuri quanto errore resta. L’ottimizzazione non è un rituale matematico: è il tentativo di trovare il compromesso più utile tra spiegazione e perdita di informazione.

Una sequenza di lavoro

Conviene seguire una sequenza fissa, così la nozione tecnica non si trasforma in un rituale vuoto. Ogni passaggio deve rendere più chiaro il costo di una decisione sbagliata.

Passaggio	Domanda da fare	Output atteso
Decisione	Che cosa cambia se capiamo meglio la regressione?	Scelta esplicita
Segnale	Quale dato osservabile riduce l’incertezza?	Metrica o evento
Baseline	Rispetto a cosa interpretiamo il risultato?	Confronto credibile
Vincolo	Che cosa può falsare la lettura?	Assunzione da dichiarare
Azione	Quale passo operativo segue?	Raccomandazione controllabile

Formalizzare senza complicare

Formalizzare la lezione significa renderla una relazione tra decisione, evidenza e rischio. Non serve a complicare le cose: serve a rendere visibili le assunzioni, così uno stakeholder può discutere il criterio decisionale invece di fidarsi del risultato per autorità.

Elemento	Definizione operativa	Controllo minimo
Unità di analisi	Oggetto su cui misuri il fenomeno	Utente, account, evento, ordine o periodo
Variabile osservata	Segnale che rappresenta il comportamento	Definizione stabile e tracciabile
Baseline	Stato contro cui confronti il segnale	Periodo, segmento, controllo o benchmark
Soglia decisionale	Punto in cui cambia l’azione	Criterio scritto prima della lettura
Rischio residuo	Errore che può restare dopo l’analisi	Sensitivity check o revisione qualitativa

La regressione come proiezione

Hai un vettore target y (n×1) e una matrice di predittori X (n×p). Lo spazio delle colonne di X è un sottospazio p-dimensionale di ℝⁿ. La regressione OLS (minimi quadrati ordinari) trova il punto in questo sottospazio più vicino a y in distanza euclidea.

Geometricamente: ŷ = Xβ = X(X^T·X)⁻¹·X^T·y = Hy, dove H è la matrice “hat” di proiezione.

I residui e = y - ŷ sono ortogonali allo spazio delle colonne di X. Questa è l’ortogonalità che definisce la soluzione OLS: X^T·e = 0 → X^T·(y - Xβ) = 0 → X^T·X·β = X^T·y. Le equazioni normali.

Cosa ci dice la geometria

R² = cos²(θ) dove θ è l’angolo tra y e ŷ. Più y è vicino allo spazio delle colonne, più R² è alto. Se y è già nello spazio, R² = 1.

Sulla collinearità, se due colonne di X sono quasi parallele, lo spazio delle colonne è quasi degenere. X^T·X è quasi singolare e i coefficienti diventano instabili. La geometria lo mostra come un sottospazio schiacciato.

Aggiungere un predittore espande lo spazio delle colonne, quindi la proiezione può solo migliorare o restare uguale. R² non può mai diminuire aggiungendo predittori, e questo è il motivo per cui l’R² aggiustato penalizza il numero di predittori.

OLS come ottimizzazione

OLS risolve: min_β ||y - Xβ||².

Impostando il gradiente a zero: -2X^T·(y - Xβ) = 0 → X^T·X·β = X^T·y.

Il gradiente punta nella direzione di massimo aumento dell’errore. Azzerarlo trova il minimo. Se aggiungi regolarizzazione (Ridge), il problema diventa min ||y - Xβ||² + λ||β||², e la soluzione geometrica è una proiezione smorzata.

Riferimenti:

Hastie, T., Tibshirani, R. & Friedman, J. (2009). The Elements of Statistical Learning, 2nd ed. Springer. Capitolo 3.
Strang, G. (2019). Linear Algebra and Learning from Data. Wellesley-Cambridge Press.

La regressione dentro un sistema

In un progetto reale la regressione non vive isolata. Fa parte di un sistema più ampio fatto di decisioni, dati disponibili, vincoli tecnici, incentivi organizzativi e qualità dell’esecuzione. Il rischio dell’analista principiante è trattare il tema come una definizione: imparare il nome, ricordare due formule, applicare un template. Il lavoro professionale è capire quale problema risolve il metodo, quali assunzioni contiene e cosa succede quando quelle assunzioni non sono vere.

La prima domanda non è quale metrica calcolo, ma quale decisione dovrà essere presa grazie a questa analisi. Una dashboard, una query o un modello statistico hanno valore solo se riducono incertezza decisionale. Se non cambiano una scelta, sono documentazione o teatro analitico. Per impostare il lavoro definisci il problema in linguaggio business, identifica l’unità di analisi corretta (utente, account, evento, sessione, ordine, campagna), controlla se i dati misurano davvero il fenomeno o solo una sua ombra, costruisci una metrica interpretabile, segmenta per evitare che la media nasconda pattern opposti e trasforma il risultato in una raccomandazione verificabile.

Caso reale: Netflix e la disciplina delle metriche

Netflix è un esempio utile perché ha costruito molte decisioni di prodotto intorno a segnali comportamentali osservabili: completamento degli episodi, tempo di ricerca prima della riproduzione, abbandono dopo pochi minuti, ritorno nella settimana successiva, efficacia delle raccomandazioni. Il punto non è che ogni azienda debba copiare Netflix, ma il metodo: il dato non viene trattato come ornamento, viene trattato come infrastruttura decisionale.

Quando Netflix valuta una modifica all’esperienza, per esempio una nuova riga di raccomandazioni, una diversa immagine di copertina o un algoritmo di ranking, non misura solo il click immediato. Misura anche segnali di qualità: l’utente guarda davvero il contenuto, torna nei giorni successivi, riduce il tempo speso a cercare, mostra una soddisfazione implicita più alta. Questa disciplina impedisce di ottimizzare vanity metric che sembrano positive nel breve ma danneggiano valore nel lungo periodo. Lo stesso principio vale per la regressione: il risultato deve essere collegato a un outcome. Se non aiuta a scegliere tra due azioni alternative, l’analisi è incompleta.

Esempio SQL: costruire una vista di controllo

Il pattern seguente è volutamente generico ma eseguibile nella maggior parte dei warehouse moderni. Crea una base analitica con metrica, segmento e finestra temporale, così puoi confrontare periodi e gruppi senza riscrivere la logica ogni volta.

WITH base_events AS (
  SELECT
    user_id,
    account_id,
    event_type,
    event_time,
    DATE_TRUNC('week', event_time) AS week,
    source,
    device_type
  FROM events
  WHERE event_time >= CURRENT_DATE - INTERVAL '180 days'
    AND user_id IS NOT NULL
),
weekly_user_metrics AS (
  SELECT
    week,
    user_id,
    COALESCE(source, 'unknown') AS source,
    COALESCE(device_type, 'unknown') AS device_type,
    COUNT(*) AS total_events,
    COUNT(DISTINCT DATE(event_time)) AS active_days,
    COUNT(DISTINCT event_type) AS event_diversity,
    MAX(CASE WHEN event_type IN ('purchase', 'subscribe', 'activation') THEN 1 ELSE 0 END) AS reached_key_outcome
  FROM base_events
  GROUP BY week, user_id, source, device_type
)
SELECT
  week,
  source,
  device_type,
  COUNT(DISTINCT user_id) AS users,
  ROUND(AVG(active_days), 2) AS avg_active_days,
  ROUND(AVG(event_diversity), 2) AS avg_event_diversity,
  ROUND(AVG(reached_key_outcome) * 100, 2) AS key_outcome_rate
FROM weekly_user_metrics
GROUP BY week, source, device_type
ORDER BY week, source, device_type;

La query non pretende di essere la risposta finale. Crea una superficie di osservazione fatta di trend, segmenti, differenze tra canali e variazioni nel tempo. Da qui l’analista può formulare ipotesi più precise.

Esempio Python: controllare stabilità e anomalie

Una metrica utile deve essere abbastanza stabile da orientare decisioni e abbastanza sensibile da segnalare cambiamenti reali. In Python possiamo controllare variazioni anomale settimana su settimana.


# df contiene: week, segment, users, key_outcome_rate
# key_outcome_rate espresso in percentuale, es. 12.4

df = df.sort_values(['segment', 'week']).copy()
df['previous_rate'] = df.groupby('segment')['key_outcome_rate'].shift(1)
df['wow_change_pp'] = df['key_outcome_rate'] - df['previous_rate']
df['rolling_mean'] = df.groupby('segment')['key_outcome_rate'].transform(
    lambda s: s.rolling(4, min_periods=2).mean()
)
df['rolling_std'] = df.groupby('segment')['key_outcome_rate'].transform(
    lambda s: s.rolling(4, min_periods=2).std()
)
df['z_score'] = (df['key_outcome_rate'] - df['rolling_mean']) / df['rolling_std']

anomalies = df[df['z_score'].abs() >= 2].sort_values('z_score')
print(anomalies[['week', 'segment', 'key_outcome_rate', 'wow_change_pp', 'z_score']])

Il valore di questo controllo è pratico: evita di reagire a ogni oscillazione casuale, ma segnala quando una variazione merita un’indagine. In azienda questo tipo di analisi può alimentare alert, review settimanali e retrospettive di prodotto.

Esercizio e lab

Al livello base scrivi in cinque righe quale decisione concreta dovrebbe migliorare grazie alla regressione, indicando metrica, unità di analisi, baseline e rischio principale. Se non riesci a nominare la decisione, la lezione è ancora troppo astratta. Al livello intermedio costruisci una tabella con quattro colonne (segnale osservato, interpretazione prudente, controllo necessario, azione consigliata) e includi almeno un caso in cui il segnale non basta per decidere. Al livello research-grade trasforma l’esercizio in un memo decisionale che includa assunzioni, criteri di esclusione, soglia di intervento, sensitivity check e una proposta di monitoraggio dopo la decisione. Come materiale usa un export reale, una tabella sintetica, una dashboard interna o un notebook di studio, con almeno una dimensione di segmento, una metrica osservabile e un periodo o baseline di confronto.

Errori comuni da evitare

L’errore più tipico è usare la regressione come etichetta tecnica invece che come criterio di scelta. Succede quando il team presenta un numero senza dire quale decisione cambia, quale baseline lo rende interpretabile e quale rischio resta aperto: il dato sembra preciso, ma non guida l’azione.

Ci sono poi tre errori ricorrenti nell’analisi. Il primo è lavorare su dati aggregati troppo presto, perché una media globale può nascondere due segmenti che si muovono in direzioni opposte. Il secondo è non controllare la qualità del dato, dato che eventi duplicati, tracking incompleto, timezone incoerenti e cambi di definizione producono conclusioni false. Il terzo è confondere correlazione e causalità: se gli utenti che usano una feature convertono di più, non significa che la feature causi conversione, potrebbero usarla perché sono già più motivati. Per ridurre questi rischi ogni analisi dovrebbe includere almeno tre controlli: definizione esplicita della metrica, confronto per segmento e verifica contro un periodo precedente o un gruppo di controllo.

Per allenare la lettura, prova a rispondere a queste domande prima di chiudere un’analisi: quale decisione concreta dovrebbe migliorare, quale unità di analisi rende il problema misurabile, quale baseline useresti per evitare una lettura isolata, quale assunzione cambierebbe la conclusione se fosse falsa e quale controllo presenteresti prima di raccomandare un’azione.

Riepilogo

La regressione va trattata come strumento decisionale, non come argomento da manuale. Il valore nasce quando colleghi problema, dati, metrica, segmentazione e azione. Una buona analisi non termina con il numero che sale o scende, termina con una frase operativa: quale decisione prendiamo, con quale livello di confidenza e quale metrica useremo per sapere se avevamo ragione. La forma corretta della lezione resta decisione, segnale, baseline, rischio e azione. Tutto il resto serve solo se rende più affidabile uno di questi passaggi.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Collegamento tematicoAdvanced SQL for Analytical SystemsCohort analysis in SQLCohort analysis in SQL. Lezione core del modulo Advanced SQL for Analytical Systems con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.Collegamento tematicoAdvanced SQL for Analytical SystemsFunnel analysis in SQLFunnel analysis in SQL. Lezione core del modulo Advanced SQL for Analytical Systems con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.Collegamento tematicoReal-Time Analytics & ClickHouse SystemsClickHouse: fondamenti e architetturaIntroduzione a ClickHouse: architettura column-oriented, motore di storage e ottimizzazione per analytics real-time.Collegamento tematicoS3, Data Lake e Lakehouse ArchitecturePrestazioni e ottimizzazione query su S3Tecniche avanzate per query veloci su data lake: caching, materializzazione, statistiche.Collegamento tematicoMarketing Analytics, Incrementality e Unit EconomicsPerformance marketing analyticsMisurare le performance delle campagne di marketing digitale: metriche, attribuzione e ottimizzazione.Collegamento tematicoAnalytics Engineering con dbt e Semantic Layerdbt fundamentals e project structuredbt fundamentals e project structure. Lezione su come configurare e strutturare un progetto dbt.