OLAP e modellazione analitica avanzata

Cubi OLAP, window functions e pattern analitici avanzati per data warehouse.

Creato daAndrii Dyshkantiuk

Lezione 96 / 236Livello: AvanzatoDurata: 22 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

Schema evolution e gestione dei cambiamenti

import pandas as pd

OLAP e modellazione analitica avanzata

Le analisi OLAP sembrano naturali finché non devi rispondere velocemente a domande incrociate per tempo, prodotto, canale, paese e segmento. Senza un modello analitico alle spalle, ogni drill-down diventa una query fragile che qualcuno deve riscrivere ogni volta. Questa lezione mostra come progettare cubi concettuali, gerarchie e aggregazioni difendibili, trattando OLAP come una progettazione di navigazione analitica e non come un elenco di operatori da memorizzare.

Quando il problema diventa concreto

Il problema non è conoscere OLAP in astratto, ma decidere come strutturare l’analisi quando la stessa domanda arriva da angolazioni diverse e deve restare coerente. Conviene leggere il tema come progettazione di navigazione: drill-down, roll-up, slice, dice e gerarchie devono conservare significato, non solo produrre tabelle. OLAP è utile quando permette domande successive senza riscrivere ogni volta la logica di base.

Come ragionare sulla scelta

La sequenza utile parte dalla decisione e finisce con un controllo. Prima chiarisci cosa cambia se il modello analitico migliora, poi quale segnale osservabile riduce l’incertezza, rispetto a quale baseline leggi il risultato, cosa può falsare la lettura e infine quale passo operativo segue.

Passaggio	Domanda da fare	Output atteso
Decisione	Che cosa cambia se il modello analitico è più solido?	Scelta esplicita
Segnale	Quale dato osservabile riduce l’incertezza?	Metrica o evento
Baseline	Rispetto a cosa interpretiamo il risultato?	Confronto credibile
Vincolo	Che cosa può falsare la lettura?	Assunzione da dichiarare
Azione	Quale passo operativo segue?	Raccomandazione controllabile

Ogni passaggio rende più chiaro il costo di una modellazione analitica sbagliata, che si paga quando i roll-up cominciano a mentire.

Il modello mentale del cubo

Immagina un cubo con tre dimensioni: Tempo × Prodotto × Paese. Ogni cella contiene il revenue, e una query OLAP è un’operazione su questo cubo. Lo slice fissa una dimensione: “revenue per prodotto e paese, solo Q1 2024” taglia il cubo sul piano temporale. Il dice filtra su più dimensioni: “revenue per prodotto in Francia e Germania, Q1-Q2 2024” estrae un sotto-cubo. Il drill-down aumenta il dettaglio, da “revenue per anno” a “revenue per mese”. Il roll-up lo diminuisce, da “revenue per città” a “revenue per regione”.

In SQL moderno queste operazioni non richiedono tool OLAP specializzati, bastano GROUP BY, WHERE e window functions. Ma il modello mentale del cubo resta potente per progettare query e dashboard.

ROLLUP, CUBE e GROUPING SETS

SQL supporta nativamente aggregazioni multidimensionali, e conoscerle evita di scrivere a mano decine di query separate.

-- ROLLUP: gerarchia di aggregazioni
SELECT country, region, SUM(revenue)
FROM sales GROUP BY ROLLUP(country, region);
-- Produce: (country,region), (country, ALL), (ALL, ALL)

-- CUBE: tutte le combinazioni
SELECT country, product, SUM(revenue)
FROM sales GROUP BY CUBE(country, product);
-- Produce 4 combinazioni: country×product, country×ALL, ALL×product, ALL×ALL

Questi operatori sostituiscono le UNION ALL di query separate e sono ottimizzati dal query planner. Per dashboard con totali e subtotali sono essenziali.

Window functions per OLAP

Le window functions coprono il 90% dei casi OLAP avanzati. Servono per il ranking, per esempio i top N prodotti per paese; per i running total, come il cumulativo mensile con finestra; per il confronto year-over-year, usando LAG sull’anno precedente; e per le moving average, come il rolling 7-day via RANGE BETWEEN. Senza window functions queste query richiedevano self-join o tool OLAP esterni, mentre oggi sono SQL standard disponibile in ogni warehouse moderno.

Leggere OLAP come sistema

In un progetto reale OLAP non vive isolato. Fa parte di un sistema più ampio fatto di decisioni, dati disponibili, vincoli tecnici, incentivi organizzativi e qualità dell’esecuzione. Il rischio dell’analista alle prime armi è trattare il tema come una definizione: imparare il nome, ricordare due operatori, applicare un template. Il lavoro professionale è diverso, perché bisogna capire quale problema risolve, quali assunzioni contiene e cosa succede quando quelle assunzioni non valgono.

La prima domanda non è “quale metrica calcolo?” ma quale decisione dovrà essere presa grazie a questa analisi. Una dashboard, una query o un modello hanno valore solo se riducono incertezza decisionale. Se non cambiano una scelta, sono documentazione o teatro analitico. Un buon modo per impostare il lavoro è definire il problema in linguaggio business, identificare l’unità di analisi corretta tra utente, account, evento, sessione, ordine o campagna, controllare se i dati misurano davvero il fenomeno o solo una sua ombra, costruire una metrica interpretabile, segmentare per evitare che la media nasconda pattern opposti e trasformare il risultato in una raccomandazione verificabile.

Netflix e la disciplina delle metriche

Netflix è un esempio utile perché ha costruito molte decisioni di prodotto intorno a segnali comportamentali osservabili: completamento degli episodi, tempo di ricerca prima della riproduzione, abbandono dopo pochi minuti, ritorno nella settimana successiva, efficacia delle raccomandazioni. Il punto non è che ogni azienda debba copiare Netflix, ma che il dato non viene trattato come ornamento, bensì come infrastruttura decisionale.

Quando Netflix valuta una modifica all’esperienza, per esempio una nuova riga di raccomandazioni, una diversa immagine di copertina o un algoritmo di ranking, non misura solo il click immediato. Misura anche segnali di qualità: l’utente guarda davvero il contenuto, torna nei giorni successivi, riduce il tempo speso a cercare. Questa disciplina impedisce di ottimizzare vanity metric che sembrano positive nel breve periodo ma distruggono valore nel lungo. Lo stesso vale per il modello OLAP, che deve essere collegato a un outcome: se non aiuta a scegliere tra due azioni alternative, l’analisi è incompleta.

Esempio SQL: una vista di controllo

Il pattern seguente è volutamente generico ma eseguibile nella maggior parte dei warehouse moderni. Crea una base analitica con metrica, segmento e finestra temporale, così da poter confrontare periodi e gruppi senza riscrivere la logica ogni volta.

WITH base_events AS (
  SELECT
    user_id,
    account_id,
    event_type,
    event_time,
    DATE_TRUNC('week', event_time) AS week,
    source,
    device_type
  FROM events
  WHERE event_time >= CURRENT_DATE - INTERVAL '180 days'
    AND user_id IS NOT NULL
),
weekly_user_metrics AS (
  SELECT
    week,
    user_id,
    COALESCE(source, 'unknown') AS source,
    COALESCE(device_type, 'unknown') AS device_type,
    COUNT(*) AS total_events,
    COUNT(DISTINCT DATE(event_time)) AS active_days,
    COUNT(DISTINCT event_type) AS event_diversity,
    MAX(CASE WHEN event_type IN ('purchase', 'subscribe', 'activation') THEN 1 ELSE 0 END) AS reached_key_outcome
  FROM base_events
  GROUP BY week, user_id, source, device_type
)
SELECT
  week,
  source,
  device_type,
  COUNT(DISTINCT user_id) AS users,
  ROUND(AVG(active_days), 2) AS avg_active_days,
  ROUND(AVG(event_diversity), 2) AS avg_event_diversity,
  ROUND(AVG(reached_key_outcome) * 100, 2) AS key_outcome_rate
FROM weekly_user_metrics
GROUP BY week, source, device_type
ORDER BY week, source, device_type;

Questa query non pretende di essere la risposta finale. Serve a creare una superficie di osservazione fatta di trend, segmenti, differenze tra canali e variazioni nel tempo. Da qui l’analista può formulare ipotesi più precise.

Esempio Python: controllare stabilità e anomalie

Una metrica utile deve essere stabile abbastanza da orientare decisioni e sensibile abbastanza da segnalare cambiamenti reali. In Python possiamo controllare variazioni anomale settimana su settimana.


# df contiene: week, segment, users, key_outcome_rate
# key_outcome_rate espresso in percentuale, es. 12.4

df = df.sort_values(['segment', 'week']).copy()
df['previous_rate'] = df.groupby('segment')['key_outcome_rate'].shift(1)
df['wow_change_pp'] = df['key_outcome_rate'] - df['previous_rate']
df['rolling_mean'] = df.groupby('segment')['key_outcome_rate'].transform(
    lambda s: s.rolling(4, min_periods=2).mean()
)
df['rolling_std'] = df.groupby('segment')['key_outcome_rate'].transform(
    lambda s: s.rolling(4, min_periods=2).std()
)
df['z_score'] = (df['key_outcome_rate'] - df['rolling_mean']) / df['rolling_std']

anomalies = df[df['z_score'].abs() >= 2].sort_values('z_score')
print(anomalies[['week', 'segment', 'key_outcome_rate', 'wow_change_pp', 'z_score']])

Il valore di questo controllo è pratico: evita di reagire a ogni oscillazione casuale, ma segnala quando una variazione merita un’indagine. In azienda questo tipo di analisi alimenta alert, review settimanali e retrospettive di prodotto.

Esercizio

Al livello base scrivi una scheda di una pagina sull’analisi OLAP che stai progettando: decisione da supportare, metrica primaria, baseline, rischio principale e azione se il segnale è confermato. Al livello intermedio costruisci una tabella con tre segmenti, periodi o scenari, e per ciascuno indica cosa cambia, quale spiegazione alternativa è plausibile e quale controllo useresti prima di raccomandare un’azione. Al livello research-grade prepara un decision memo con ipotesi, dati richiesti, criteri di esclusione, controlli di qualità, soglia decisionale, rischio residuo e piano di monitoraggio.

Per i dati usa warehouse, SQL, modelli dimensionali, dati ordini, eventi e tabelle anagrafiche. Se non hai accesso a dati reali, crea un dataset sintetico con almeno 200 righe, una dimensione temporale, una dimensione segmento e una metrica di outcome. Un caso pratico realistico è analizzare revenue per mese, prodotto, paese e segmento enterprise: la modellazione OLAP decide quali dimensioni diventano gerarchie, quali aggregati sono additivi e quali metriche richiedono calcoli controllati per non mentire nei roll-up.

L’errore tipico

L’errore più comune è usare OLAP come etichetta invece che come processo. Succede quando il team mostra un grafico senza decisione, una metrica senza baseline o una conclusione senza indicare quale assunzione potrebbe invalidarla. La domanda di controllo è: se questo risultato fosse instabile, quale scelta sbaglierei? Se la risposta non è concreta, manca ancora il collegamento tra analisi e azione.

Tre errori di analisi ricorrono spesso. Il primo è lavorare su dati aggregati troppo presto, perché una media globale può nascondere due segmenti che si muovono in direzioni opposte. Il secondo è non controllare la qualità del dato: eventi duplicati, tracking incompleto, timezone incoerenti e cambi di definizione producono conclusioni false. Il terzo è confondere correlazione e causalità, perché se gli utenti che usano una feature convertono di più non significa che la feature causi conversione. Per ridurre questi rischi ogni analisi dovrebbe includere una definizione esplicita della metrica, un confronto per segmento e una verifica contro un periodo precedente o un gruppo di controllo.

Riepilogo

OLAP va trattato come uno strumento decisionale, non come un argomento da manuale. Il valore nasce quando colleghi problema, dati, metrica, segmentazione e azione, e quando le dimensioni, le gerarchie e gli aggregati restano coerenti man mano che navighi tra slice, dice, drill-down e roll-up. Una buona analisi non termina con “il numero è salito” o “il numero è sceso”, ma con una frase operativa: quale decisione prendiamo, con quale livello di confidenza, e quale metrica useremo per sapere se avevamo ragione.

Riferimento: Celko, J. (2014). Joe Celko’s SQL for Smarties, 5th ed. Morgan Kaufmann.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Collegamento tematicoS3, Data Lake e Lakehouse ArchitectureStrategie di partizionamento su data lakeProgettare partizioni ottimali per query engines su S3: trade-off e pattern consolidati.Collegamento tematicoData Collection & Tracking SystemsIntegrazioni: connettere tool e warehousePattern di integrazione per portare dati da tool SaaS al data warehouse.Collegamento tematicoS3, Data Lake e Lakehouse ArchitectureAthena e Presto/Trino: query engines su S3Usare query engines SQL per interrogare direttamente i dati su data lake senza ETL.Collegamento tematicoKafka & Event Streaming EngineeringIntroduzione allo streaming con KafkaFondamenti di Apache Kafka: architettura, concetti chiave e pattern di utilizzo per analytics.Collegamento tematicoKafka & Event Streaming EngineeringProducer, Consumer e SerializzazioneImplementare producer e consumer Kafka robusti con pattern di serializzazione ottimale per analytics.Collegamento tematicoReal-Time Analytics & ClickHouse SystemsFondamenti di stream processingIntroduzione allo stream processing: differenza tra batch e real-time, architetture e pattern fondamentali.