Similarità e distanze - immagine ufficiale della lezione su GinnyTech, creata da AD

Similarità, distanze e trasformazioni lineari

Metriche di similarità, spazi metrici e come le trasformazioni lineari plasmano i dati.

Creato daAndrii Dyshkantiuk

Lezione 151 / 236Livello: AvanzatoDurata: 22 minPrerequisiti: 1

Cosa imparerai

Comprendere il problema analitico e il contesto decisionale
Applicare esempi, metriche e controlli a casi reali

Collegamenti

Vettori, matrici e geometria del dato

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

Similarità, distanze e trasformazioni lineari

Questa lezione tratta similarità, distanze e trasformazioni lineari come una scelta operativa, non come un capitolo di teoria da memorizzare. La categoria è tecnica, ma il punto non è accumulare definizioni: è capire quale decisione cambia quando il dato diventa più affidabile. Un team product ti chiede perché il nuovo sistema di raccomandazione propone articoli apparentemente strani. A occhio sembrano lontani dal gusto dell’utente, ma dentro il modello condividono una direzione: ritmo di acquisto, categoria, fascia prezzo, ricorrenza e risposta alle offerte.

Dal problema alla decisione

Il problema vero non è conoscere similarità e trasformazioni in astratto. È decidere cosa fare quando il team ha dati incompleti, metriche ambigue o vincoli tecnici che rendono fragile la lettura del fenomeno. Una lezione utile separa il segnale dal rumore, dice quale baseline usare e indica quale azione diventa più difendibile dopo l’analisi.

Le trasformazioni lineari servono a rendere visibile la struttura dei dati. Prendono uno spazio difficile da leggere e lo ruotano, comprimono o proiettano finché il segnale diventa più interpretabile. Se capisci cosa fa una matrice, capisci anche cosa il modello sta scegliendo di conservare e cosa sta sacrificando. Vale la pena leggere la lezione come ponte tra algebra e sistemi reali: embedding, PCA, SVD, raccomandazioni e riduzione dimensionale sono modi diversi di manipolare spazi, e la domanda non è solo come si calcola, ma quale informazione resta leggibile dopo la trasformazione.

Dai dati ai vettori

Per analizzare i dati in modo quantitativo dobbiamo prima tradurre entità del mondo reale, come clienti, prodotti e transazioni, in un linguaggio matematico. Lo strumento per questa traduzione è il vettore. Un cliente di una piattaforma e-commerce può essere rappresentato come un vettore in uno spazio delle caratteristiche (feature space), dove ogni dimensione corrisponde a una metrica di comportamento. Per esempio il cliente C1 potrebbe essere descritto dal vettore v1 = [12, 85.50, 4], dove le componenti rappresentano rispettivamente acquisti_ultimo_mese, spesa_media_per_acquisto e categorie_diverse_visitate. Un secondo cliente, C2, potrebbe essere v2 = [13, 90.00, 4].

Una volta che clienti e prodotti vivono nello stesso spazio, similarità e distanza diventano misure concrete: due vettori vicini descrivono comportamenti simili, due vettori lontani descrivono comportamenti diversi. Le trasformazioni lineari lavorano proprio su questo spazio, cambiando il modo in cui le distanze vengono lette senza inventare informazione che non c’era.

Una sequenza di lavoro

Conviene seguire una sequenza fissa, così la nozione tecnica non si trasforma in un rituale vuoto. Ogni passaggio deve rendere più chiaro il costo di una decisione sbagliata.

Passaggio	Domanda da fare	Output atteso
Decisione	Che cosa cambia se capiamo meglio similarità e distanze?	Scelta esplicita
Segnale	Quale dato osservabile riduce l’incertezza?	Metrica o evento
Baseline	Rispetto a cosa interpretiamo il risultato?	Confronto credibile
Vincolo	Che cosa può falsare la lettura?	Assunzione da dichiarare
Azione	Quale passo operativo segue?	Raccomandazione controllabile

Formalizzare senza complicare

Formalizzare la lezione significa renderla una relazione tra decisione, evidenza e rischio. Non serve a complicare le cose: serve a rendere visibili le assunzioni, così uno stakeholder può discutere il criterio decisionale invece di fidarsi del risultato per autorità.

Elemento	Definizione operativa	Controllo minimo
Unità di analisi	Oggetto su cui misuri il fenomeno	Utente, account, evento, ordine o periodo
Variabile osservata	Segnale che rappresenta il comportamento	Definizione stabile e tracciabile
Baseline	Stato contro cui confronti il segnale	Periodo, segmento, controllo o benchmark
Soglia decisionale	Punto in cui cambia l’azione	Criterio scritto prima della lettura
Rischio residuo	Errore che può restare dopo l’analisi	Sensitivity check o revisione qualitativa

Esempio o caso studio

Immagina un team che deve usare similarità, distanze e trasformazioni lineari per decidere se cambiare una pipeline, una metrica, un investimento o una dashboard. La domanda non è quale sia la definizione corretta, ma quale scelta diventa meno rischiosa se questa analisi è fatta bene.

Situazione	Lettura prudente	Decisione
Il dato migliora ma la baseline è debole	Il segnale potrebbe essere reale o dipendere dal campione	Rafforzare il confronto prima di scalare
La metrica cambia in un solo segmento	L’effetto medio nasconde eterogeneità	Separare coorti o casi d’uso
Il costo operativo aumenta	Il beneficio va valutato sul margine	Applicare una soglia economica esplicita
Il sistema produce numeri incoerenti	La fiducia nel dato è parte della decisione	Correggere ownership e controlli

Esercizio e lab

Al livello base scrivi in cinque righe quale decisione concreta dovrebbe migliorare grazie a similarità e trasformazioni lineari, indicando metrica, unità di analisi, baseline e rischio principale. Se non riesci a nominare la decisione, la lezione è ancora troppo astratta. Al livello intermedio costruisci una tabella con quattro colonne (segnale osservato, interpretazione prudente, controllo necessario, azione consigliata) e includi almeno un caso in cui il segnale non basta per decidere. Al livello research-grade trasforma l’esercizio in un memo decisionale che includa assunzioni, criteri di esclusione, soglia di intervento, sensitivity check e una proposta di monitoraggio dopo la decisione. Come materiale usa un export reale, una tabella sintetica, una dashboard interna o un notebook di studio, con almeno una dimensione di segmento, una metrica osservabile e un periodo o baseline di confronto.

Errore tipico da evitare

L’errore tipico è usare similarità, distanze e trasformazioni lineari come etichetta tecnica invece che come criterio di scelta. Succede quando il team presenta un numero senza dire quale decisione cambia, quale baseline lo rende interpretabile e quale rischio resta aperto: in quel caso il dato sembra preciso, ma non guida l’azione. Per tenere insieme i pezzi conviene mantenere alcuni controlli stabili: chiarire che cosa cambia dopo l’analisi, scegliere quale segnale osservabile userai, indicare quale confronto rende il segnale credibile, nominare quale errore può portare a una scelta sbagliata e definire quale passo operativo segue.

Per controllare se hai davvero collegato analisi e azione, prova a rispondere prima di chiudere: quale decisione concreta dovrebbe migliorare, quale unità di analisi rende il problema misurabile, quale baseline useresti per evitare una lettura isolata, quale assunzione cambierebbe la conclusione se fosse falsa e quale controllo presenteresti prima di raccomandare un’azione.

Riepilogo

Similarità, distanze e trasformazioni lineari diventano utili quando riducono l’incertezza su una scelta reale. La forma corretta della lezione resta decisione, segnale, baseline, rischio e azione: tutto il resto serve solo se rende più affidabile uno di questi passaggi. Dettagli, formule o esempi servono solo se rendono più chiaro uno di questi controlli.

Percorso collegato

Lezioni da leggere insieme

Questi collegamenti portano la lezione dentro il resto del corso: basi da riprendere, passaggi successivi e connessioni tematiche tra moduli.

Collegamento tematicoMarketing Analytics, Incrementality e Unit EconomicsPerformance marketing analyticsMisurare le performance delle campagne di marketing digitale: metriche, attribuzione e ottimizzazione.Collegamento tematicoMarketing Analytics, Incrementality e Unit EconomicsFunnel marketing e unit economicsIl funnel di marketing dal traffico al revenue, con metriche di unit economics integrate.Collegamento tematicoMarketing Data Science, Forecasting e Decision ModelsEmbeddings e rappresentazione semanticaUsare embeddings per rappresentare clienti, prodotti e contenuti in spazi vettoriali.Collegamento tematicoAnalytics Engineering con dbt e Semantic Layerdbt fundamentals e project structuredbt fundamentals e project structure. Lezione su come configurare e strutturare un progetto dbt.Collegamento tematicoAnalytics Engineering con dbt e Semantic LayerTest, contracts e fiducia nei modelliTest, contracts e fiducia nei modelli. Lezione su come garantire la qualità dei dati con dbt.Collegamento tematicoAdvanced SQL for Analytical SystemsCohort analysis in SQLCohort analysis in SQL. Lezione core del modulo Advanced SQL for Analytical Systems con problema reale, modello concettuale, formalizzazione rigorosa, caso applicato, lab a 3 livelli e checkpoint finale.