"I Magnifici Sette" del GP.

All’armamentario del provetto GP-profiler… aggiungo altri due centri geometrici, e così siamo a sette.


Il primo è il Minimum Spanning Tree (MST). La definizione che ne dà Wikipedia è orrenda : “Albero Ricoprente Minimo”, e leggendo l’articolo, non ci capisco niente. Mi aiuta ChatGPT a chiarirmi le idee.

Il Minimum Spanning Tree (MST) — in italiano albero ricoprente minimo — è un concetto della teoria dei grafi usato per collegare un insieme di punti (nodi) nel modo più efficiente possibile, cioè minimizzando la somma della distanze tra i punti.

In parole semplici:

Immagina di avere una mappa con alcune città, e vuoi costruire delle strade per collegarle tutte, ma spendendo il meno possibile in asfalto.
Il MST ti dice quali collegamenti fare per unire tutte le città senza cicli (cioè senza fare giri inutili) e usando la distanza totale minima.

Regole:

  • Deve collegare tutti i nodi.
  • Non può avere cicli (altrimenti non è un albero).
  • La somma dei pesi (cioè delle distanze, costi, ecc.) degli archi usati deve essere la più bassa possibile.

Esempio pratico:

Nel caso del Mostro di Firenze, se consideri ogni scena del crimine come un nodo e misuri la distanza tra ogni coppia, il MST ti dice come sarebbe stato il percorso minimo che li collega tutti — utile per ipotizzare un percorso logico o abituale dell’offender.

Per fortuna ChatGPT lo calcola senza problemi, usando l’algoritmo Kruskal. Vediamo il grafico sottostante, tratto da un’analisi di Canter su un offender che ha commesso 11 crimini.

In nero il MST, il percorso cioè più corto per collegare tutti i punti, senza cicli. I due punti più distanti, seguendo il percorso, come se fosse su un treno che va sui binari, e non in linea d’aria, sono i punti 1 e 11. La distanza fra questi due punti è 21,42 unità. La stella nera, cioè il Centro del MST, è piazzata a metà, a 10,71 unità dal punto 1 e dal punto 11.

E’ un po’ lo stesso criterio del cerchio di Canter. Questo ha come diametro i due punti più distanti fra loro in linea d’aria, cioè i punti 3 e 11, e il centro del cerchio, stella blu, sta a metà fra i due.

Non una grossa performance per il MST, rispetto alla casa dell’offender… ma c’è da dire che questo bastardo era un commuter, in quanto la sua residenza era fuori dal cerchio di Canter. Adesso veniamo ad un altro punto, il Q-Range. Cito le testuali parole di Canter da "The Efficacy of Ideographic Models for Gepgraphical Offender Profiling" del 2013, che potete trovare qui.

 

“La base teorica per l’uso delle analisi di regressione come mezzo per prevedere la probabile ubicazione della casa dell’offender deriva dal fatto che, come discusso in precedenza, è stato spesso riscontrato che gli offender mostrano bias direzionali nella distribuzione dei loro crimini. In altre parole, ci sono numerose evidenze che indicano come la distribuzione dei luoghi dei crimini di un offender non sia distribuita uniformemente attorno alla sua casa o base, ma risulti distorta in una direzione specifica. Una possibile ragione di ciò è che spesso agiscono lungo percorsi principali, ad esempio verso il centro città, oppure concentrano i crimini in aree bersaglio particolari (Canter e Youngs 2008a). Per questo motivo, si ipotizza che i luoghi dei loro crimini siano distribuiti lungo un asse sul quale si trova anche la loro casa (Canter et al. 2000).

Un modo diretto per esplorare l’evidenza di una relazione assiale tra la casa dell’offender e i luoghi dei suoi crimini in una singola serie criminale è trattare i luoghi dei crimini come punti nello spazio cartesiano e calcolare la retta di regressione che meglio si adatta a quei punti, come fatto da Canter et al. (2000) per stabilire quello che chiamarono Q-Range, utile alla normalizzazione delle loro funzioni di decadimento.

 

Nel caso presente, ciò consente di ponderare le funzioni di densità kernel sulla base della relazione dei crimini con la retta di regressione. Per stimare la probabile posizione della casa dell’offender, si usano innanzitutto tutte le località dei crimini per stimare una retta di regressione tramite il metodo dei minimi quadrati (Wolberg 2005). In seguito, tutti i crimini vengono proiettati ortogonalmente su questa retta. A partire da tutte queste proiezioni si calcola la stima della densità kernel (Parzen 1962; Yeung e Chow 2002; Nunez-Garcia et al. 2003). Quindi, nel segmento di retta contenente tutte le proiezioni, vengono generati 1.000 punti equidistanti. Per ciascun punto 𝑥, si stima il valore della funzione di densità kernel. Il punto con il valore massimo della densità kernel rappresenta la stima della posizione più probabile della casa dell’offender.

 

Easy, no… ? Retta di regressione lineare, proiezione ortogonale dei delitti sulla retta, si tracciano 1000 punti e si calcola la densità (heatmap). Il picco della heatmap dovrebbe essere la sede più probabile della residenza dell’offender.

Per fortuna… ChatGPT fa tutti questi calcoli in un baleno. Ne risulterà un punto, lungo la retta di regressione, che ha la massima densità.

Nel grafico sottostante, che riguarda il MdF, vedete una marea di Centri… spero che i primi 5 vi siano familiari, CMD, Mediana, Baricentro, Centro del cerchio di Canter e max KDE che ho aggiunto nell’ultimo post.

La linea nera è il percorso del MST, il più breve che collega tutti i delitti, e il centro del MST è la stella azzurra in alto a sinistra.

Il Q-Range, stella marrone chiaro, sta sulla retta di regressione lineare, in blu tratteggiato. Ci ho aggiunto anche la casa di JB, e le distanze dei vari centri dalla casa.

 

 

Riprendendo il titolo del post, ci sono i magnifici 7 centri, un po’ troppi, a dire il vero. Quale di loro ci “azzeccherà” ? Probabilmente nessuno, meglio, quale si avvicinerà di più alla casa dell’offender ?

E’ sempre una questione statistica, di probabilità, ricavata da grosse serie di dati. Riprendo l'ottimo lavoro di Canter, da cui ho tratto gli ultimi due punti, MST e Q-Range. Testa 5 modelli su un campione di 63 autori di furto con scasso. Ecco i risultati.

 

 

Il primo in alto, che lui chiama “Regression”, sarebbe il Q-Range, ed è quello che ha ottenuto i risultati migliori. Poi ci sono altri due modelli così complicati che non sono riuscito ad implementarli su ChatGPT, sebbene assomiglino, come impostazione, al KDE. Poi c’è il MST, e in ultimo il cerchio, ma che non è l’originale cerchio di Canter, è lo “Smallest Enclosing Circle”, quel cerchio cioè che racchiude tutti i punti, cosa che non succede per forza col classico Cerchio di Canter. Il “Circle” è per definizione, nonostante il nome, maggiore o uguale al cerchio di Canter.

I risultati variano da 1,79 km a 2,66 km dalla residenza dell’offender, ma non fatevi ingannare, si tratta di furti con scasso. Gli autori percorrono distanze enormemente inferiori a quelle dei SK ! Qualsiasi centro usiate, se è dentro al CHP, con questi “pesci piccoli”, ottiene risultati apparentemente sorprendenti, ma con i grandi squali bianchi, i SK, le cose si fanno tremendamente più difficili.

Da un altro studio, proprio di Canter, che riporto in questo post, emerge che stupratori, ladri (furti con scasso, come qui), e rapinatori, coprono in media rispettivamente 1,84 km, 2,6 km e 3,38 km da casa al luogo del crimine, mentre i SK USA coprono in media 40 km dalla casa a dove lasciano/seppelliscono i corpi ! Sono dei mostri, in tutti i sensi…

 

Canter poi compara i risultati del suo studio con quelli di Paulsen del 2005 e 2006.

 


Dovendo scegliere fra i centri classici, come confermato da numerosi studi, il CMD è migliore della Mediana, e quest’ultima migliore del Baricentro.

Lo studio di Paulsen del 2005 “Connecting the dots: assessing the accuracy of geographic profiling software”, dava risultati che allora erano clamorosi. I migliori software in circolazione, Rigel, Dragnet, Crimestat, non erano superiori alle comuni misure centrografiche: CMD, Mediana, Baricentro !



 

 

Beh… il provetto GP-profiler può rincuorarsi. Non occorrono software venduti (Rigel) a $ 60.000… se non c’è il computer, la Mediana è un buon compromesso, col computer basterebbe il CMD, magari affiancato dalla KDE.
Il lettore attento forse si chiederà cosa sono quei puntini neri che ho tracciato dal Q-Range alla casa di JB. Una curiosità, niente più… tracciando la perpendicolare al Q-Range, questa passa per il delitto di Scandicci, quello di Giogoli, e la casa di JB. Distanze laterali di soli 0,2 km, 0,5 km e 0,3 km, quasi un “percorso preferenziale”…

Nessun commento:

Posta un commento

Commento in attesa di approvazione

Nota. Solo i membri di questo blog possono postare un commento.