All’armamentario del provetto GP-profiler… aggiungo altri due centri geometrici, e così siamo a sette.
Il primo è il Minimum Spanning Tree
(MST). La definizione che ne dà Wikipedia è orrenda : “Albero Ricoprente
Minimo”, e leggendo l’articolo, non ci capisco niente. Mi aiuta ChatGPT a
chiarirmi le idee.
Il Minimum Spanning Tree (MST) — in italiano albero ricoprente minimo
— è un concetto della teoria dei grafi usato per collegare un insieme di punti (nodi) nel modo più
efficiente possibile, cioè minimizzando la somma della distanze tra i punti.
In parole semplici:
Immagina di avere una mappa con
alcune città, e vuoi costruire delle strade per collegarle tutte, ma
spendendo il meno possibile in asfalto.
Il MST ti dice quali collegamenti fare per unire tutte le città senza
cicli (cioè senza fare giri inutili) e usando la distanza totale minima.
Regole:
- Deve collegare tutti i nodi.
- Non
può avere cicli (altrimenti non è un albero).
- La somma dei pesi (cioè delle distanze,
costi, ecc.) degli archi usati deve essere la più bassa possibile.
Esempio pratico:
Nel caso del Mostro di Firenze,
se consideri ogni scena del crimine come un nodo e misuri la distanza tra ogni
coppia, il MST ti dice come sarebbe stato il percorso minimo che li
collega tutti — utile per
ipotizzare un percorso logico o abituale dell’offender.
Per fortuna ChatGPT lo calcola senza problemi, usando l’algoritmo Kruskal. Vediamo il grafico sottostante, tratto da un’analisi di Canter su un offender che ha commesso 11 crimini.
In nero il MST, il percorso cioè più corto per collegare tutti i punti, senza cicli. I due punti più distanti, seguendo il percorso, come se fosse su un treno che va sui binari, e non in linea d’aria, sono i punti 1 e 11. La distanza fra questi due punti è 21,42 unità. La stella nera, cioè il Centro del MST, è piazzata a metà, a 10,71 unità dal punto 1 e dal punto 11.
E’ un po’ lo stesso criterio del cerchio di Canter. Questo
ha come diametro i due punti più distanti fra loro in linea d’aria, cioè i
punti 3 e 11, e il centro del cerchio, stella blu, sta a metà fra i due.
Non una grossa performance per il MST, rispetto alla casa dell’offender… ma c’è da dire che questo bastardo era un commuter, in quanto la sua residenza era fuori dal cerchio di Canter. Adesso veniamo ad un altro punto, il Q-Range. Cito le testuali parole di Canter da "The Efficacy of Ideographic Models for Gepgraphical Offender Profiling" del 2013, che potete trovare qui.
“La base teorica per l’uso delle analisi di regressione
come mezzo per prevedere la probabile ubicazione della casa dell’offender
deriva dal fatto che, come discusso in precedenza, è stato spesso riscontrato
che gli offender mostrano
bias direzionali nella distribuzione dei loro crimini. In altre parole,
ci sono numerose evidenze che indicano come la distribuzione dei luoghi dei
crimini di un offender non sia distribuita uniformemente attorno alla sua casa
o base, ma risulti
distorta in una direzione specifica. Una possibile ragione di ciò è che
spesso agiscono lungo percorsi principali, ad esempio verso il centro città,
oppure concentrano i crimini in aree bersaglio particolari (Canter e Youngs
2008a). Per questo motivo, si
ipotizza che i luoghi dei loro crimini siano distribuiti lungo un asse sul
quale si trova anche la loro casa (Canter et al. 2000).
Un modo diretto per esplorare l’evidenza di una relazione assiale tra la
casa dell’offender e i luoghi dei suoi crimini in una singola serie criminale è
trattare i luoghi dei crimini come punti nello spazio cartesiano e calcolare la
retta di regressione che meglio si adatta a quei punti, come fatto da Canter et
al. (2000) per stabilire quello che chiamarono Q-Range, utile alla
normalizzazione delle loro funzioni di decadimento.
Nel caso presente, ciò consente di ponderare le funzioni di
densità kernel sulla base della relazione dei crimini con la retta di
regressione. Per stimare la probabile posizione della casa dell’offender, si
usano innanzitutto tutte le località dei crimini per stimare una retta di regressione tramite il
metodo dei minimi quadrati (Wolberg 2005). In seguito, tutti i crimini vengono proiettati
ortogonalmente su questa retta. A partire da tutte queste proiezioni si calcola la stima della
densità kernel (Parzen 1962; Yeung e Chow 2002; Nunez-Garcia et al.
2003). Quindi, nel segmento di retta contenente tutte le proiezioni, vengono generati 1.000 punti
equidistanti. Per ciascun punto 𝑥, si stima il valore della
funzione di densità kernel. Il punto con il valore massimo della densità kernel
rappresenta la stima della posizione più probabile della casa dell’offender.
Easy, no… ? Retta di regressione lineare, proiezione ortogonale dei
delitti sulla retta, si tracciano 1000 punti e si calcola la densità (heatmap).
Il picco della heatmap dovrebbe essere la sede più probabile della residenza
dell’offender.
Per fortuna… ChatGPT fa tutti questi calcoli in un baleno.
Ne risulterà un punto, lungo la retta di regressione, che ha la massima
densità.
Nel grafico sottostante, che riguarda il MdF, vedete una
marea di Centri… spero che i primi 5 vi siano familiari, CMD, Mediana,
Baricentro, Centro del cerchio di Canter e max KDE che ho aggiunto nell’ultimo
post.
La linea nera è il percorso del MST, il più breve che
collega tutti i delitti, e il centro del MST è la stella azzurra in alto a
sinistra.
Il Q-Range, stella marrone chiaro, sta sulla retta di
regressione lineare, in blu tratteggiato. Ci ho aggiunto anche la casa di JB, e
le distanze dei vari centri dalla casa.
Riprendendo il titolo del post, ci sono i magnifici 7
centri, un po’ troppi, a dire il vero. Quale di loro ci “azzeccherà” ?
Probabilmente nessuno, meglio, quale si avvicinerà di più alla casa dell’offender
?
E’ sempre una questione statistica, di probabilità,
ricavata da grosse serie di dati. Riprendo l'ottimo lavoro di Canter, da cui
ho tratto gli ultimi due punti, MST e Q-Range. Testa 5 modelli su un campione di 63 autori di furto con scasso. Ecco i
risultati.
Il primo in alto, che lui chiama “Regression”, sarebbe il
Q-Range, ed è quello che ha ottenuto i risultati migliori. Poi ci sono altri
due modelli così complicati che non sono riuscito ad implementarli su ChatGPT,
sebbene assomiglino, come impostazione, al KDE. Poi c’è il MST, e in ultimo il
cerchio, ma che non è l’originale cerchio di Canter, è lo “Smallest Enclosing
Circle”, quel cerchio cioè che racchiude tutti i punti, cosa che non succede
per forza col classico Cerchio di Canter. Il “Circle” è per definizione,
nonostante il nome, maggiore o uguale al cerchio di Canter.
I risultati variano da 1,79 km a 2,66 km dalla residenza
dell’offender, ma non fatevi ingannare, si tratta di furti con scasso. Gli
autori percorrono distanze enormemente inferiori a quelle dei SK ! Qualsiasi
centro usiate, se è dentro al CHP, con questi “pesci piccoli”, ottiene
risultati apparentemente sorprendenti, ma con i grandi squali bianchi, i SK, le
cose si fanno tremendamente più difficili.
Da un altro studio, proprio di Canter, che riporto in questo post, emerge che
stupratori, ladri (furti con scasso, come qui), e rapinatori, coprono in media
rispettivamente 1,84 km, 2,6 km e 3,38 km da casa al luogo del crimine, mentre
i SK USA coprono in media 40 km dalla casa a dove lasciano/seppelliscono i
corpi ! Sono dei mostri, in tutti i sensi…
Canter poi compara i risultati del suo studio con quelli di
Paulsen del 2005 e 2006.
Dovendo scegliere fra i centri classici, come confermato da numerosi studi, il CMD è migliore della Mediana, e quest’ultima migliore del Baricentro.
Lo studio di Paulsen del 2005 “Connecting the dots: assessing the accuracy of geographic profiling software”, dava risultati che allora erano clamorosi. I migliori software in circolazione, Rigel, Dragnet, Crimestat, non erano superiori alle comuni misure centrografiche: CMD, Mediana, Baricentro !
Beh… il provetto GP-profiler può rincuorarsi. Non occorrono
software venduti (Rigel) a $ 60.000… se non c’è il computer, la Mediana è un
buon compromesso, col computer basterebbe il CMD, magari affiancato dalla KDE.
Il lettore attento forse si
chiederà cosa sono quei puntini neri che ho tracciato dal Q-Range alla casa di
JB. Una curiosità, niente più… tracciando la perpendicolare al Q-Range, questa
passa per il delitto di Scandicci, quello di Giogoli, e la casa di JB. Distanze
laterali di soli 0,2 km, 0,5 km e 0,3 km, quasi un “percorso preferenziale”…
Nessun commento:
Posta un commento
Commento in attesa di approvazione
Nota. Solo i membri di questo blog possono postare un commento.