Vai al contenuto principale
Cluster analysis: tecniche e applicazioni - immagine ufficiale della lezione su GinnyTech, creata da AD

Cluster analysis: tecniche e applicazioni

Tecniche avanzate di clustering: hierarchical, DBSCAN e Gaussian Mixture Models per segmentazione.

AD
Creato da Andrii Dyshkantiuk
Lezione 76 / 216 Livello: Avanzato Durata: 22 min Prerequisiti: 1

Cosa imparerai

  • Comprendere il problema analitico e il contesto decisionale
  • Applicare esempi, metriche e controlli a casi reali

Cluster analysis: tecniche e applicazioni

Un algoritmo trova cinque cluster clienti, ma nessuno sa se rappresentano comportamenti stabili o solo artefatti di scala, feature e normalizzazione. Cluster analysis: tecniche e applicazioni serve a trasformare segmenti matematici in gruppi interpretabili, attivabili e abbastanza robusti da guidare marketing.

Una scena da cui partire

Leggi questa lezione come controllo tra geometria e business. Il cluster utile non è quello più bello in un grafico: è quello che descrive una differenza reale e suggerisce un trattamento diverso.

  • Contesto: Quale decisione di targeting richiede segmenti non supervisionati?
  • Metodo: Quale controllo verifica stabilità e interpretabilità dei cluster?
  • Applicazione: Quale segmento scarteresti perché non è azionabile?

Hierarchical Clustering

Non richiede K a priori. Produce un dendrogramma visivo che mostra la struttura gerarchica dei cluster:

from scipy.cluster.hierarchy import dendrogram, linkage, fcluster
from sklearn.preprocessing import StandardScaler

X_scaled = StandardScaler().fit_transform(df[features])
Z = linkage(X_scaled, method='ward')  # minimizza varianza intra-cluster

# Dendrogramma
import matplotlib.pyplot as plt
plt.figure(figsize=(14, 7))
dendrogram(Z, truncate_mode='level', p=5)
plt.title('Customer Segmentation Dendrogram')
plt.show()

# Taglia a 5 cluster
clusters = fcluster(Z, t=5, criterion='maxclust')

Vantaggio chiave: il dendrogramma è un potente strumento esplorativo. Vedere visivamente a quale altezza i cluster si uniscono dà intuizioni sulla struttura dei dati che i numeri da soli non danno. Puoi “tagliare” l’albero a diverse altezze per più o meno granularità.

DBSCAN: cluster di forma arbitraria

DBSCAN non assume cluster sferici e gestisce automaticamente gli outlier (li classifica come rumore, cluster -1):

from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.8, min_samples=15)
clusters = dbscan.fit_predict(X_scaled)

n_clusters = len(set(clusters)) - (1 if -1 in clusters else 0)
n_outliers = list(clusters).count(-1)
print(f"Cluster: {n_clusters}, Outliers: {n_outliers} ({n_outliers/len(clusters)*100:.1f}%)")

Quando usare DBSCAN: dati con cluster di densità variabile (es. comportamento di acquisto con pattern non lineari), presenza di outlier significativi, e quando non hai idea di quanti cluster aspettarti.

Scelta di eps: il parametro più critico. Usa il metodo k-distance: plotta la distanza al k-esimo vicino per ogni punto, ordinate in modo decrescente. Il “gomito” nella curva suggerisce eps.

from sklearn.neighbors import NearestNeighbors
neigh = NearestNeighbors(n_neighbors=15)
nbrs = neigh.fit(X_scaled)
distances, _ = nbrs.kneighbors(X_scaled)
distances = np.sort(distances[:, -1])
plt.plot(distances)
# Cerca il punto di massima curvatura → eps ottimale

Gaussian Mixture Models (GMM)

Assegna probabilità di appartenenza soft, non etichette hard:

from sklearn.mixture import GaussianMixture

gmm = GaussianMixture(n_components=5, covariance_type='full', random_state=42)
gmm.fit(X_scaled)
probs = gmm.predict_proba(X_scaled)  # shape: (n_samples, n_components)
labels = gmm.predict(X_scaled)

Utile per marketing: un cliente può essere “60% Deal Hunter, 30% Power Shopper, 10% Window Shopper”. Puoi targetizzare campagne basate sui pesi di appartenenza, non su etichette binarie. Un cliente “al 60% Deal Hunter” vede principalmente offerte, ma ogni tanto anche raccomandazioni premium (per il 30% Power Shopper).

Scegliere il numero di cluster: le metriche

MetricaRangeTargetInterpretazione
Silhouette Score[-1, 1]Più alto = meglio, >0.5 buonoCoesione intra-cluster vs separazione inter-cluster
Davies-Bouldin Index[0, ∞)Più basso = meglioSimilarità media tra ogni cluster e il suo più simile
Calinski-Harabasz[0, ∞)Più alto = meglioRapporto varianza between/within cluster
Business interpretabilityQualitativoSegmenti con significato marketingSe non sai spiegare il cluster in 1 frase, non serve

Regola pratica: testa K da 2 a 10 con tutte e tre le metriche. Cerca il punto dove le metriche iniziano a peggiorare marginalmente. Poi scegli il K con il miglior significato di business — anche se non è l’ottimo matematico puro.

Checklist per un clustering di successo

  1. Feature normalizzate (StandardScaler o MinMaxScaler)
  2. Almeno 3 metodi provati (K-means, Hierarchical, DBSCAN o GMM)
  3. Numero cluster stabilito con metriche + business sense
  4. Ogni cluster ha un nome memorabile e un profilo interpretabile
  5. I cluster sono stabili (rifacendo il clustering su un subset, le assegnazioni non cambiano radicalmente)
  6. Il clustering porta a un’azione di marketing diversa per segmento (se tratti tutti i segmenti allo stesso modo, il clustering non serve)

Controllo di qualità

Prima di usare “cluster analysis: tecniche e applicazioni\ in una decisione, controlla sempre completezza, duplicati, timezone, definizioni cambiate e segmenti esclusi. Molte analisi apparentemente sofisticate falliscono perché il dato di partenza misura un comportamento diverso da quello che il team crede di osservare.

Interpretazione per segmenti

La media aggregata è solo il punto di partenza. Segmenta per canale, coorte, piano, paese, device e maturità dell’utente. Se due segmenti si muovono in direzioni opposte, la media non rappresenta nessuno dei due e può portare a una decisione sbagliata.

Problema reale

Nel dominio di marketing data science, Cluster analysis: tecniche e applicazioni serve a risolvere questo problema: usare modelli e segmentazioni per decidere dove intervenire, non per produrre complessità fine a se stessa. La lezione non va trattata come teoria isolata, ma come un modo per migliorare una scelta concreta con dati, assunzioni esplicite e controlli minimi.

Obiettivo operativo: Comprendere il problema analitico e il contesto decisionale; Applicare esempi, metriche e controlli a casi reali. Se alla fine non sai indicare quale decisione cambia, quale dato osservi e quale errore vuoi evitare, la lezione non è ancora diventata competenza applicata.

Modello concettuale

FaseCosa chiarireOutput
DomandaQuale scelta reale deve migliorare?Decisione da prendere
MisuraQuale segnale osservabile rappresenta il problema?Metrica o dato sorgente
ControlloQuale baseline rende il risultato interpretabile?Confronto credibile
AzioneChe cosa cambia dopo l’analisi?Prossimo passo operativo

Il modello concettuale è intenzionalmente semplice: decisione, dato, controllo, azione. Ogni approfondimento tecnico deve rafforzare almeno uno di questi quattro punti.

Formalizzazione rigorosa

Per rendere Cluster analysis: tecniche e applicazioni analizzabile, definisci prima l’unità di lavoro: cliente, campagna, segmento, previsione o feature. Poi collega questa unità a una metrica osservabile: lift, errore, stabilità, valore marginale e costo operativo. Infine dichiara la decisione attesa: modello, esperimento, segmento attivabile o raccomandazione.

ElementoSpecifica richiesta
Unità di analisicliente, campagna, segmento, previsione o feature
Segnale principalelift, errore, stabilità, valore marginale e costo operativo
BaselinePeriodo precedente, gruppo comparabile, benchmark o scenario controfattuale
Decisionemodello, esperimento, segmento attivabile o raccomandazione
RischioScambiare un numero disponibile per una prova sufficiente

La formalizzazione e solida quando un altro analista può riprodurre la logica, criticare le assunzioni e ottenere la stessa decisione partendo dagli stessi dati.

Esempio o caso studio

Un clustering produce gruppi apparentemente distinti, ma uno nasce quasi solo dal reddito, uno dalla frequenza di acquisto e uno da dati mancanti. Il caso obbliga a verificare se i segmenti sono stabili, interpretabili e traducibili in trattamenti marketing diversi.

Evidenza osservataLettura prudenteAzione consigliata
Il numero miglioraPotrebbe essere effetto reale o variazione normaleCercare confronto e segmento
Un segmento cambia più degli altriLa media aggregata nasconde una differenzaSeparare coorti o casi d’uso
Il costo cresce insieme al risultatoL’impatto va letto sul margineStimare trade-off e sostenibilità

Lab / esercizio

Livello base

Scrivi una scheda di una pagina per Cluster analysis: tecniche e applicazioni: decisione da supportare, metrica primaria, baseline, rischio principale e azione se il segnale e confermato.

Livello intermedio

Costruisci una tabella con tre segmenti, periodi o scenari. Per ciascuno indica cosa cambia, quale spiegazione alternativa e plausibile e quale controllo useresti prima di raccomandare un azione.

Livello research-grade

Prepara un decision memo: ipotesi, dati richiesti, criteri di esclusione, controlli di qualità, soglia decisionale, rischio residuo e piano di monitoraggio dopo la decisione.

Dataset e materiali consigliati

Usa CRM, campagne, transazioni, feature marketing, testo, embeddings e serie storiche. Se non hai accesso a dati reali, crea un dataset sintetico con almeno 200 righe, una dimensione temporale, una dimensione segmento e una metrica di outcome.

Errore tipico da evitare

L’errore più comune e usare Cluster analysis: tecniche e applicazioni come etichetta invece che come processo. Succede quando il team mostra un grafico senza decisione, una metrica senza baseline, o una conclusione senza indicare quale assunzione potrebbe invalidarla.

La domanda di controllo è: se questo risultato fosse instabile, quale scelta sbaglierei? Se la risposta non è concreta, manca ancora il collegamento tra analisi e azione.

Quiz o checkpoint

  1. Quale decisione concreta dovrebbe migliorare questa lezione?
  2. Quale unità di analisi rende il problema misurabile?
  3. Quale baseline useresti per evitare una lettura ingenua?
  4. Quale errore tipico potrebbe cambiare la conclusione?
  5. Quale output consegneresti a uno stakeholder non tecnico?

Riepilogo operativo

Cluster analysis: tecniche e applicazioni diventa utile quando produce una decisione più chiara, non quando aggiunge terminologia. Usa il framework problema, modello, formalizzazione, esempio, lab e checkpoint per trasformare la lezione in pratica verificabile. Categoria: Tecnico. Difficoltà: advanced. Tempo stimato: 22 min.

Approfondimento di pratica

Per consolidare Cluster analysis: tecniche e applicazioni, trattala come una piccola prova di lavoro dentro un caso growth in cui segmenti, modelli o previsioni devono cambiare una decisione commerciale. Non basta dire di aver capito la lezione: devi produrre una raccomandazione misurabile con baseline, azione, rischio e criterio di verifica. Questo passaggio serve a rendere la conoscenza trasferibile, perché obbliga a separare contesto, misura, azione e limite.

Esempio operativo

Parti da una domanda semplice: quale scelta diventerebbe migliore se applicassi bene questa lezione? Nel modulo marketing data science, la risposta deve sempre collegare un problema reale a un output osservabile. Se stai studiando una lezione di tipo Tecnico, costruisci un esempio con tre righe: il contesto in cui nasce la domanda, il dato o il modello che useresti per leggerla, e la decisione che prenderesti dopo aver controllato i rischi.

Un esempio valido non deve essere grande. Può essere una tabella con una baseline e due segmenti, una query che verifica una definizione, un disegno di esperimento, un controllo su un modello o un memo di dieci righe. La qualità non dipende dalla complessità tecnica, ma dalla tracciabilità del ragionamento: chi legge deve capire perché hai scelto quella metrica, quale alternativa hai scartato e quale evidenza ti farebbe cambiare idea.

Checkpoint di lavoro

  • Scrivi la decisione che questa lezione dovrebbe migliorare, usando un verbo operativo: allocare, fermare, correggere, lanciare, misurare, priorizzare o investigare.
  • Definisci il segnale principale e almeno un guardrail. Il segnale dice dove guardi; il guardrail evita che una scelta localmente buona rovini il sistema.
  • Aggiungi una baseline. Senza baseline non sai se il numero e alto, basso, stabile, anomalo o solo raccontato male.
  • Esplicita il rischio più probabile: produrre un modello interessante ma scollegato da budget, canali o responsabilità operative. Scrivilo prima della raccomandazione, non dopo.
  • Chiudi con un output consegnabile: dashboard, query, schema, memo, esperimento, notebook o checklist. Deve essere qualcosa che un reviewer possa aprire e criticare.

Riepilogo di padronanza

Hai davvero assimilato Cluster analysis: tecniche e applicazioni quando riesci a usarla in tre modi: spiegare il concetto senza gergo inutile, applicarlo a un caso piccolo ma realistico, e difendere una raccomandazione includendo limiti e prossimi controlli. Se manca uno di questi tre elementi, torna al modello concettuale e riduci l’ambizione dell’esempio. Meglio una prova piccola ma rigorosa di un grande progetto che non rende verificabile la decisione.