Vettori, matrici e geometria del dato
Fondamenti di algebra lineare per l'analisi dati: vettori, matrici e la geometria dietro i numeri.
Cosa imparerai
- Comprendere il problema analitico e il contesto decisionale
- Applicare esempi, metriche e controlli a casi reali
Collegamenti
Vettori, matrici e geometria del dato
Stai confrontando due clienti che sembrano simili: hanno speso quasi la stessa cifra, arrivano dallo stesso canale e hanno visitato le stesse pagine. Poi guardi meglio e scopri che uno compra sempre prodotti ricorrenti, l’altro solo promozioni. In tabella sono vicini; nel comportamento sono lontani.
La geometria del dato serve proprio a questo: trasformare righe e colonne in posizioni, direzioni e distanze. Un vettore non è un simbolo astratto. È il modo in cui descrivi un utente, un prodotto, una sessione o un documento dentro uno spazio dove puoi misurare somiglianze reali.
Una scena da cui partire
Leggi questa lezione pensando a un problema pratico: devi decidere se due elementi sono davvero simili. La risposta cambia se usi distanza euclidea, coseno, normalizzazione o una matrice di trasformazione. Non è un dettaglio tecnico: è una scelta che può cambiare segmenti, raccomandazioni e anomalie.
- Contesto: quali feature definiscono davvero il comportamento?
- Metodo: quale distanza resta sensata quando le scale sono diverse?
- Applicazione: quale decisione cambierebbe se la similarità fosse calcolata male?
Vettori: punti e frecce nello spazio
Un vettore è una lista ordinata di numeri: v = [v₁, v₂, ..., vₙ]. Ogni cliente nel tuo dataset è un vettore: una riga della matrice dei dati.
Interpretazioni:
- Geometrica: un punto nello spazio ℝⁿ o una freccia dall’origine a quel punto.
- Algebrica: un elemento di uno spazio vettoriale su cui puoi fare somma e prodotto per scalare.
- Pratica: un cliente con età=34, reddito=45K, spesa_mensile=230 è il vettore
[34, 45000, 230].
Operazioni fondamentali
Somma: u + v = [u₁+v₁, ..., uₙ+vₙ]. Geometricamente: la diagonale del parallelogramma.
Prodotto per scalare: α·v = [αv₁, ..., αvₙ]. Allunga/accorcia il vettore.
Prodotto scalare (dot product): u·v = u₁v₁ + ... + uₙvₙ = ||u||·||v||·cos(θ). Misura quanto due vettori “puntano nella stessa direzione”. Se è 0, sono ortogonali. Se è positivo, formano un angolo acuto.
Il dot product è la base di:
- Similarità coseno:
cos(θ) = (u·v) / (||u||·||v||). Misura similarità tra documenti, utenti, prodotti. Robustissima a differenze di scala. - Proiezione:
proj_u(v) = ((u·v)/(u·u))·u. La componente di v lungo la direzione di u.
Norma: ||v|| = √(v₁² + ... + vₙ²). La lunghezza (distanza euclidea dall’origine).
import numpy as np
u = np.array([1, 2, 3])
v = np.array([4, 5, 6])
cos_sim = np.dot(u, v) / (np.linalg.norm(u) * np.linalg.norm(v))
# cos_sim ≈ 0.974 — molto simili
Matrici: trasformazioni dello spazio
Una matrice A di dimensioni m×n è una griglia di numeri. Nell’analisi dati, la matrice X (n_righe × n_feature) rappresenta l’intero dataset: ogni riga è un vettore cliente, ogni colonna è una feature.
Moltiplicazione matrice-vettore: y = A·x. Geometricamente: A trasforma il vettore x in un nuovo vettore y (lo ruota, lo scala, lo riflette). Linearmente: ogni componente di y è una combinazione lineare delle componenti di x.
Moltiplicazione matrice-matrice: C = A·B. Compone trasformazioni. Prima applichi B, poi A.
Trasposta: A^T. Scambia righe e colonne. Fondamentale perché X^T·X è la matrice di covarianza, usata in PCA e regressione.
Caso reale: sistema di raccomandazione
Netflix rappresenta film e utenti come vettori in uno spazio latente (es. 50 dimensioni). La predizione del rating è il dot product tra il vettore utente e il vettore film. L’addestramento consiste nel trovare i vettori che minimizzano l’errore di predizione — un problema di algebra lineare massiccio risolto con decomposizione matriciale (SVD).
Distanze: quanto sono simili due punti?
| Distanza | Formula | Quando usarla |
|---|---|---|
| Euclidea | √(Σ(uᵢ-vᵢ)²) | Default, sensibile agli outlier |
| Manhattan | `Σ | uᵢ-vᵢ |
| Coseno | `1 - (u·v)/( | |
| Mahalanobis | √((u-v)^T·Σ⁻¹·(u-v)) | Tiene conto della correlazione tra feature |
La scelta della distanza determina il risultato di clustering, k-NN, anomaly detection. Non è un dettaglio: è una decisione di modellazione.
Riferimenti:
- Strang, G. (2019). Linear Algebra and Learning from Data. Wellesley-Cambridge Press.
- Boyd, S. & Vandenberghe, L. (2018). Introduction to Applied Linear Algebra. Cambridge University Press.
Controllo di qualità
Prima di usare vettori, matrici e geometria del dato in una decisione, controlla sempre completezza, duplicati, timezone, definizioni cambiate e segmenti esclusi. Molte analisi apparentemente sofisticate falliscono perché il dato di partenza misura un comportamento diverso da quello che il team crede di osservare.
Interpretazione per segmenti
La media aggregata è solo il punto di partenza. Segmenta per canale, coorte, piano, paese, device e maturità dell’utente. Se due segmenti si muovono in direzioni opposte, la media non rappresenta nessuno dei due e può portare a una decisione sbagliata.
Decisione operativa
Ogni analisi deve terminare con una scelta possibile: continuare, fermare, iterare, investire, rimuovere o approfondire. Se vettori, matrici e geometria del dato non cambia una decisione, probabilmente manca ancora il collegamento tra metrica e azione.
Metriche di verifica
Dopo l’intervento, definisci una metrica primaria e due guardrail. La metrica primaria misura il miglioramento atteso; le guardrail impediscono di ottenere quel miglioramento distruggendo retention, fiducia, qualità del dato o sostenibilità operativa.
Problema reale
Nel dominio di matematica per analisi dati, Vettori, matrici e geometria del dato serve a risolvere questo problema: usare concetti matematici per capire incertezza, struttura e limiti delle analisi. La lezione non va trattata come teoria isolata, ma come un modo per migliorare una scelta concreta con dati, assunzioni esplicite e controlli minimi.
Obiettivo operativo: Comprendere il problema analitico e il contesto decisionale; Applicare esempi, metriche e controlli a casi reali. Se alla fine non sai indicare quale decisione cambia, quale dato osservi e quale errore vuoi evitare, la lezione non è ancora diventata competenza applicata.
Modello concettuale
| Fase | Cosa chiarire | Output |
|---|---|---|
| Domanda | Quale scelta reale deve migliorare? | Decisione da prendere |
| Misura | Quale segnale osservabile rappresenta il problema? | Metrica o dato sorgente |
| Controllo | Quale baseline rende il risultato interpretabile? | Confronto credibile |
| Azione | Che cosa cambia dopo l’analisi? | Prossimo passo operativo |
Il modello concettuale è intenzionalmente semplice: decisione, dato, controllo, azione. Ogni approfondimento tecnico deve rafforzare almeno uno di questi quattro punti.
Formalizzazione rigorosa
Per rendere Vettori, matrici e geometria del dato analizzabile, definisci prima l’unità di lavoro: variabile, vettore, distribuzione, funzione, campione o matrice. Poi collega questa unità a una metrica osservabile: errore, distanza, varianza, stabilità, sensibilità e interpretabilità. Infine dichiara la decisione attesa: formalizzazione, controllo di assunzione, calcolo o interpretazione geometrica.
| Elemento | Specifica richiesta |
|---|---|
| Unità di analisi | variabile, vettore, distribuzione, funzione, campione o matrice |
| Segnale principale | errore, distanza, varianza, stabilità, sensibilità e interpretabilità |
| Baseline | Periodo precedente, gruppo comparabile, benchmark o scenario controfattuale |
| Decisione | formalizzazione, controllo di assunzione, calcolo o interpretazione geometrica |
| Rischio | Scambiare un numero disponibile per una prova sufficiente |
La formalizzazione e solida quando un altro analista può riprodurre la logica, criticare le assunzioni e ottenere la stessa decisione partendo dagli stessi dati.
Esempio o caso studio
Il team vuole confrontare clienti, prodotti e contenuti come punti in uno spazio di caratteristiche. Vettori, norme e similarità diventano utili quando chiariscono cosa significa “vicino”, quale distanza è coerente con il problema e quali scale possono ingannare il confronto.
| Evidenza osservata | Lettura prudente | Azione consigliata |
|---|---|---|
| Il numero migliora | Potrebbe essere effetto reale o variazione normale | Cercare confronto e segmento |
| Un segmento cambia più degli altri | La media aggregata nasconde una differenza | Separare coorti o casi d’uso |
| Il costo cresce insieme al risultato | L’impatto va letto sul margine | Stimare trade-off e sostenibilità |
Lab / esercizio
Livello base
Scrivi una scheda di una pagina per Vettori, matrici e geometria del dato: decisione da supportare, metrica primaria, baseline, rischio principale e azione se il segnale e confermato.
Livello intermedio
Costruisci una tabella con tre segmenti, periodi o scenari. Per ciascuno indica cosa cambia, quale spiegazione alternativa e plausibile e quale controllo useresti prima di raccomandare un azione.
Livello research-grade
Prepara un decision memo: ipotesi, dati richiesti, criteri di esclusione, controlli di qualità, soglia decisionale, rischio residuo e piano di monitoraggio dopo la decisione.
Dataset e materiali consigliati
Usa dataset numerici, simulazioni, matrici, campioni, notebook e problemi guidati. Se non hai accesso a dati reali, crea un dataset sintetico con almeno 200 righe, una dimensione temporale, una dimensione segmento e una metrica di outcome.
Errore tipico da evitare
L’errore più comune e usare Vettori, matrici e geometria del dato come etichetta invece che come processo. Succede quando il team mostra un grafico senza decisione, una metrica senza baseline, o una conclusione senza indicare quale assunzione potrebbe invalidarla.
La domanda di controllo è: se questo risultato fosse instabile, quale scelta sbaglierei? Se la risposta non è concreta, manca ancora il collegamento tra analisi e azione.
Quiz o checkpoint
- Quale decisione concreta dovrebbe migliorare questa lezione?
- Quale unità di analisi rende il problema misurabile?
- Quale baseline useresti per evitare una lettura ingenua?
- Quale errore tipico potrebbe cambiare la conclusione?
- Quale output consegneresti a uno stakeholder non tecnico?
Riepilogo operativo
Vettori, matrici e geometria del dato diventa utile quando produce una decisione più chiara, non quando aggiunge terminologia. Usa il framework problema, modello, formalizzazione, esempio, lab e checkpoint per trasformare la lezione in pratica verificabile. Categoria: Tecnico. Difficoltà: advanced. Tempo stimato: 22 min.
Approfondimento di pratica
Per consolidare Vettori, matrici e geometria del dato, trattala come una piccola prova di lavoro dentro una discussione tecnica in cui formule, distanze o trasformazioni devono restare interpretabili. Non basta dire di aver capito la lezione: devi produrre una spiegazione che collega simboli, intuizione geometrica e conseguenza sul dato. Questo passaggio serve a rendere la conoscenza trasferibile, perché obbliga a separare contesto, misura, azione e limite.
Esempio operativo
Parti da una domanda semplice: quale scelta diventerebbe migliore se applicassi bene questa lezione? Nel modulo matematica analisi dati, la risposta deve sempre collegare un problema reale a un output osservabile. Se stai studiando una lezione di tipo Tecnico, costruisci un esempio con tre righe: il contesto in cui nasce la domanda, il dato o il modello che useresti per leggerla, e la decisione che prenderesti dopo aver controllato i rischi.
Un esempio valido non deve essere grande. Può essere una tabella con una baseline e due segmenti, una query che verifica una definizione, un disegno di esperimento, un controllo su un modello o un memo di dieci righe. La qualità non dipende dalla complessità tecnica, ma dalla tracciabilità del ragionamento: chi legge deve capire perché hai scelto quella metrica, quale alternativa hai scartato e quale evidenza ti farebbe cambiare idea.
Checkpoint di lavoro
- Scrivi la decisione che questa lezione dovrebbe migliorare, usando un verbo operativo: allocare, fermare, correggere, lanciare, misurare, priorizzare o investigare.
- Definisci il segnale principale e almeno un guardrail. Il segnale dice dove guardi; il guardrail evita che una scelta localmente buona rovini il sistema.
- Aggiungi una baseline. Senza baseline non sai se il numero e alto, basso, stabile, anomalo o solo raccontato male.
- Esplicita il rischio più probabile: usare la matematica come autorità invece che come controllo sulle assunzioni. Scrivilo prima della raccomandazione, non dopo.
- Chiudi con un output consegnabile: dashboard, query, schema, memo, esperimento, notebook o checklist. Deve essere qualcosa che un reviewer possa aprire e criticare.
Riepilogo di padronanza
Hai davvero assimilato Vettori, matrici e geometria del dato quando riesci a usarla in tre modi: spiegare il concetto senza gergo inutile, applicarlo a un caso piccolo ma realistico, e difendere una raccomandazione includendo limiti e prossimi controlli. Se manca uno di questi tre elementi, torna al modello concettuale e riduci l’ambizione dell’esempio. Meglio una prova piccola ma rigorosa di un grande progetto che non rende verificabile la decisione.
Percorso collegato
Lezioni da leggere insieme
Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.