PARRHESEPSTEIN — Analisi Forense Documentale

NETWORK ANALYSIS

Spectral • PageRank • UMAP
Analisi della rete semantica dei documenti tramite teoria spettrale dei grafi, PageRank e riduzione dimensionale
3,140,085
Chunk nel DB
30,000
Campione Analizzato
450,000
Archi nel Grafo
40
Comunità Scoperte
384
Dimensioni Embedding

Metodologia: Tre Analisi Indipendenti

Abbiamo applicato tre tecniche matematiche distinte sullo stesso campione di 30.000 chunk (campionamento uniforme su 3.14M documenti) per rivelare la struttura nascosta della rete documentale. Ogni analisi cattura un aspetto diverso: la struttura comunitaria (spettrale), la topologia dello spazio semantico (UMAP) e l'influenza relativa (PageRank).

Pipeline Comune

  • Campionamento uniforme: 20 punti equidistanti nel DB, 1.500 chunk ciascuno → 30.000 chunk totali
  • Estrazione embedding 384-dimensionali (paraphrase-multilingual-MiniLM-L12-v2)
  • Costruzione grafo k-NN nello spazio coseno (k=15–20)
  • Applicazione algoritmi di analisi (Spectral / UMAP+KDE / PageRank+HITS)
  • Community detection (Louvain) e identificazione documenti chiave

ANALISI 1 — Spectral Clustering + Gatekeeper Detection

Teoria spettrale dei grafi • Autovalori del Laplaciano • Betweenness Centrality

Teoria: Il Laplaciano del Grafo

Grafo k-NN Pesato

Ogni documento diventa un nodo. Per ciascun nodo, calcoliamo i k=20 vicini più simili nello spazio coseno 384-dimensionale. Il peso di ogni arco è la similarità coseno:

Similarità coseno tra embedding di documenti

Matrice Laplaciana Normalizzata

Il Laplaciano normalizzato del grafo codifica la struttura di connettività. I suoi autovalori rivelano la separazione naturale in cluster:

D = matrice diagonale dei gradi, W = matrice di adiacenza pesata

L'eigengap (salto tra autovalori consecutivi) indica il numero naturale di cluster: il più grande salto dopo λ0=0 suggerisce il taglio ottimale.

Il massimo eigengap determina il numero naturale di cluster k*

Gatekeeper Score

Un gatekeeper è un documento che funge da ponte tra comunità diverse. Combinando la betweenness centrality (quanti cammini minimi passano per quel nodo) con il numero di comunità distinte a cui è connesso:

Betweenness centrality pesata per il numero di comunità connesse

Risultati Spettrali

Numero Naturale di Cluster: k* = 12

L'analisi degli autovalori del Laplaciano rivela un eigengap massimo tra λ11 e λ12 (gap = 0.00295), suggerendo che i documenti si organizzano naturalmente in 12 macro-gruppi tematici. L'algoritmo di Louvain, operando a risoluzione più fine, identifica 40 comunità con una modularità di 0.8206 (eccellente — indica struttura comunitaria molto forte).

Top Gatekeeper: Documenti-Ponte tra Comunità

I gatekeeper sono documenti che collegano comunità semantiche altrimenti separate. Un documento con alto gatekeeper score occupa una posizione strategica nella rete — rimuovendolo, interi cluster perderebbero connessione.

#1 Gatekeeper Score: 0.0434 EFTA01131043 (DataSet 9)
Betweenness: 0.00724 • Comunità connesse: 5 • Community: 1
Documento accademico sulla proprietà virtuale e diritto fiscale. Discute se i beni virtuali debbano essere trattati come "vera proprietà" ai fini legali. Un tema apparentemente estraneo che connette comunità legali, finanziarie e tecnologiche.
#2 Gatekeeper Score: 0.0399 EFTA00610965 (DataSet 9)
Betweenness: 0.00307 • Comunità connesse: 12 • Community: 2
Registri giudiziari CM/ECF del tribunale della Florida meridionale. Include certificati di servizio riguardanti Wachovia Bank e Scott W. Rothstein — il noto avvocato della Florida condannato per lo schema Ponzi da 1.2 miliardi di dollari. Questo documento connette 12 comunità distinte, il massimo nell'intera rete.
#3 Gatekeeper Score: 0.0328 EFTA02697971 (DataSet 11)
Betweenness: 0.00218 • Comunità connesse: 14 • Community: 29
Email da Terje Rød-Larsen (ex presidente dell'International Peace Institute, diplomatico norvegese) a jeevacation@gmail.com (Epstein). L'email è indirizzata ad Avi Gil, ex direttore generale del Ministero degli Esteri israeliano. Connette 14 comunità — il maggior numero di connessioni cross-community.
#4 Gatekeeper Score: 0.0323 EFTA01776230 (DataSet 10)
Betweenness: 0.00403 • Comunità connesse: 7 • Community: 35
Email a Jeffrey Epstein (18 giugno 2011). Contiene riferimenti redatti a incontri mancati e la tipica clausola di riservatezza. La betweenness centrality molto alta (0.00403) indica che questo documento è un nodo di passaggio critico nei percorsi informativi.
#5 Gatekeeper Score: 0.0312 EFTA00000837 (DataSet 1)
Betweenness: 0.00521 • Comunità connesse: 5 • Community: 3
Modulo FBI FD-674a (documentazione fotografica). Riferimento a una location a East Manhattan, New York. DataSet 1 contiene le prove fisiche dell'FBI — la più alta betweenness di questo set indica che le prove fotografiche collegano diverse linee investigative.
#10 Gatekeeper Score: 0.0241 EFTA00224866 (DataSet 9)
Betweenness: 0.00201 • Comunità connesse: 11 • Community: 0
Lettera dello studio legale Kirkland & Ellis LLP (Jay Lefkowitz) del 18 agosto 2008, in risposta a una lettera riguardante la "civil restitution" di Jeffrey Epstein. Connette 11 comunità — questo studio legale era al centro del plea deal controverso.
#14 Gatekeeper Score: 0.0205 EFTA01776335 (DataSet 10)
Betweenness: 0.00228 • Comunità connesse: 8 • Community: 7
Email (26 agosto 2011) con messaggio inoltrato da Sean Parker (co-fondatore di Napster e primo presidente di Facebook) a Epstein. Discussione su calendario e appuntamenti per la settimana del 17.
#17 Gatekeeper Score: 0.0192 EFTA00225044 (DataSet 9)
Betweenness: 0.00214 • Comunità connesse: 8 • Community: 2
Documento che menziona la redazione di lettere per le firme di "Jeff" e Alex Acosta (il procuratore che negoziò il controverso plea deal del 2008). Connette 8 comunità — un nodo cruciale nell'intersezione tra difesa legale e procedura federale.
#44 Gatekeeper Score: 0.0129 EFTA01927631 (DataSet 10)
Betweenness: 0.00184 • Comunità connesse: 6 • Community: 11
Email di Martin Nowak (professore di matematica e biologia ad Harvard) a Epstein riguardante un affitto di $350K/anno. Nowak diresse il Program for Evolutionary Dynamics, finanziato con $6.5M da Epstein. Questo documento connette le sfere accademica e finanziaria.

Ponti tra Comunità — Top Connessioni

L'analisi ha identificato 45 ponti tra comunità. Le connessioni più dense rivelano quale tipo di documenti collega i diversi cluster tematici.

PonteArchiDocumento ADocumento B
Comm 11 ↔ 137,789 Email personali (Epstein)Corrispondenza assistente (Lesley Groff)
Comm 7 ↔ 115,867 Email in francese a EpsteinCorrispondenza personale varia
Comm 11 ↔ 354,298 Corrispondenza quotidianaEmail con istruzioni operative
Comm 11 ↔ 263,428 Kirkland & Ellis (plea deal)Deutsche Bank (Richard Kahn)
Comm 0 ↔ 23,260 Documenti legali USAORegistri giudiziari / Rothstein
Comm 1 ↔ 21,811 Documenti accademici / techAtti giudiziari Florida
Comm 1 ↔ 261,485 Broadcom/Qualcomm (tech/finance)Southern Financial Trading
Comm 7 ↔ 131,545 Email multilingueDocumenti legali / FAA

ANALISI 2 — Topologia Semantica

UMAP (384D → 2D) • Kernel Density Estimation • Distribuzione Spaziale

Teoria: Riduzione Dimensionale e Densità

UMAP (Uniform Manifold Approximation and Projection)

UMAP riduce lo spazio da 384 dimensioni a 2, preservando sia la struttura locale (documenti simili restano vicini) che quella globale (cluster distinti restano separati). A differenza di t-SNE, UMAP ha solide basi nella topologia algebrica:

Funzione di costo cross-entropy tra grafi fuzzy nello spazio originale e proiettato

Parametri: n_neighbors=15 (località), min_dist=0.1 (compattezza), metrica=coseno.

Kernel Density Estimation (KDE)

Sulla proiezione 2D, stimiamo la densità di probabilità con un kernel gaussiano su una griglia 200×200, usando il metodo di Scott per la bandwidth:

Stima della densità con kernel gaussiano — h calcolato con il metodo di Scott

Risultati: Distribuzione Spaziale dei Dataset

Spazio Semantico Continuo — Nessun Vuoto Rilevato

L'analisi KDE non ha rilevato vuoti semantici significativi (regioni a bassa densità circondate da alta densità). Questo indica che il corpus documentale copre lo spazio semantico in modo continuo e denso — non esistono "buchi" dove ci si aspetterebbe di trovare documenti ma non ce ne sono. La densità varia da 0 (bordi) a 0.0226 (picco), con mediana di soli 0.000025, indicando una distribuzione fortemente concentrata in pochi cluster densi.

DatasetCentroide (x,y)Dispersione (σ)N. ChunkCaratteristica
DataSet 1 (5.30, 13.04)σx=2.78, σy=3.311,500 Prove FBI — isolato nello spazio, cluster compatto
DataSet 9 (10.45, 4.35)σx=4.94, σy=3.9213,500 Documenti legali e email — la più ampia dispersione
DataSet 10 (11.37, 4.55)σx=4.25, σy=4.419,000 Email e corrispondenza — sovrapposto con DataSet 9
DataSet 11 (12.50, 7.76)σx=3.68, σy=3.506,000 Email più recenti — leggermente spostato verso l'alto

DataSet 1 (Prove FBI): Isola Semantica

Il DataSet 1 (fotografie, rapporti FBI, prove fisiche) è spazialmente isolato rispetto agli altri tre dataset. Il suo centroide (5.30, 13.04) è distante ~10 unità UMAP dai centroidi di DataSet 9/10 (~10.9, ~4.5). Questo conferma che le prove fisiche dell'FBI hanno una natura semantica fondamentalmente diversa dalla corrispondenza elettronica e dai documenti legali.

Statistiche Densità

Distribuzione della Densità

Densità Minima0.000000
Densità Massima0.022601
Media0.000867
Mediana0.000025

Interpretazione

Il rapporto media/mediana = 34.7x rivela una distribuzione estremamente asimmetrica: pochi cluster molto densi circondati da vaste regioni a bassa densità. La struttura è quella di "isole" tematiche dense collegate da "ponti" sottili di documenti di transizione.

ANALISI 3 — Document Influence Network

PageRank • HITS (Hub/Authority) • Semantic Influence Score

Teoria: Misure di Influenza

Grafo Diretto k-NN

Costruiamo un grafo diretto: ogni documento punta ai suoi k=15 vicini più simili. Il grafo risultante ha 30.000 nodi e 450.000 archi diretti. L'in-degree (quanti documenti puntano a un nodo) rivela quanto un documento è "attrattivo" nello spazio semantico.

PageRank

L'algoritmo PageRank (inventato da Google) assegna a ogni nodo un punteggio di "importanza" basato sulla struttura ricorsiva dei link:

α = 0.85 (damping factor), N = 30.000 nodi, B(i) = nodi che puntano a i

Un documento ha alto PageRank se molti documenti "importanti" gli somigliano. È una misura di centralità ricorsiva.

HITS: Hub e Authority

HITS distingue due ruoli: le Authority (documenti a cui molti puntano) e gli Hub (documenti che puntano a molte authority):

Aggiornamento iterativo fino a convergenza

Semantic Influence Score

Combiniamo le tre metriche in un punteggio unico:

Punteggio combinato che cattura PageRank, popolarità (in-degree) e autorità

Risultati PageRank

Distribuzione del PageRank

Il PageRank medio è 1/N = 0.0000333, ma il massimo raggiunge 0.0016048 volte la media. Il 2.64% dei nodi (793 su 30.000) supera la soglia di mean+2σ. L'analisi ha rilevato 42 comunità con modularità 0.8132.

Top Documenti per Influenza Semantica

I documenti con il più alto Semantic Influence Score sono quelli che combinano alto PageRank, alto in-degree e alta Authority. Rappresentano i "baricentri" della rete.

#1 Influence: 0.00550 EFTA00743137 (DataSet 9)
PageRank: 0.00160 • Authority: 0.0397 • In-degree: 196 • Community: 16
Email di Epstein (jeevacation@gmail.com), 5 dicembre 2009: "tell me?" Seguita dalla clausola standard di riservatezza. La brevità e il formato standard rendono questo documento semanticamente "centrale" — molti altri documenti gli assomigliano nella struttura.
#2 Influence: 0.00421 EFTA00742566 (DataSet 9)
PageRank: 0.00150 • Authority: 0.0325 • In-degree: 149 • Community: 16
Email di Epstein, 26 novembre 2009. Con allegati. Stessa struttura standard con clausola di riservatezza. In-degree 149 indica che 149 altri documenti nel campione lo elencano tra i loro 15 più simili.
#7 Influence: 0.00300 EFTA01011526 (DataSet 9)
PageRank: 0.00150 • Authority: 0.000 • In-degree: 273 (MAX) • Community: 4
Documento con il più alto in-degree dell'intera rete (273). PDF multi-documento del DataSet 9 contenente 1.099 pagine di corrispondenza, allegati email e materiale procedurale. L'elevato in-degree riflette la varietà tematica interna: centinaia di sotto-documenti eterogenei generano similarità con molte comunità diverse, rendendo questo nodo un attrattore trasversale nella rete.
#12 Influence: 0.00244 EFTA01775840 (DataSet 10)
PageRank: 0.00132 • Authority: 0.0000 • In-degree: 231 • Community: 8
Email in francese a Epstein (8 luglio 2011): "i am waiting for you". Secondo in-degree più alto (231) — nodo attrattivo nella comunità 8 che raggruppa la corrispondenza multilingue.

Influencer per Comunità

Ogni comunità ha un "influencer" — il documento con il più alto Semantic Influence Score all'interno del cluster. Questi documenti definiscono il "tema" di ciascuna comunità.

Comm. 16 (1,278 nodi) EFTA00743137 — Influence: 0.00550
DataSet 9: 782 • DataSet 10: 366 • DataSet 11: 130
Email brevi di Epstein. Questa comunità raggruppa le email sintetiche inviate da jeevacation@gmail.com — messaggi come "tell me?", "well?", "great". Sono i documenti più "centrali" perché la loro struttura standardizzata li rende semanticamente simili a migliaia di altri.
Comm. 12 (3,337 nodi) EFTA00225672 — Influence: 0.00079
DataSet 9: 3,137 • DataSet 10: 178 • DataSet 11: 22
Documenti legali e procedurali. L'influencer menziona le "alleged victims" e il diritto di Epstein di contestare le accuse. Comunità dominata dal DataSet 9 (94%) — il cuore dei documenti giudiziari.
Comm. 4 (1,657 nodi) EFTA01011526 — Influence: 0.00300
DataSet 9: 1,481 • DataSet 11: 148 • DataSet 10: 26
Raccolta multi-documento. Questa comunità raggruppa chunk provenienti da PDF compositi del DOJ — raccolte di email, allegati e materiale procedurale aggregato per volume. La struttura eterogenea di questi documenti li rende semanticamente distinti dalle altre comunità tematiche.
Comm. 0 (1,433 nodi) EFTA01651549 — Influence: 0.00084
DataSet 10: 1,129 • DataSet 9: 286 • DataSet 11: 17
Victim Services e corrispondenza FBI. L'influencer è un'email di VictimServices riguardante un "Epstein Victim - Unknown Contact Information" (2 novembre 2020). Questa comunità raccoglie i documenti relativi all'assistenza alle vittime.
Comm. 13 (589 nodi) EFTA00000179 — Influence: 0.00030
DataSet 1: 560 • DataSet 9: 14 • DataSet 10: 10
Prove fotografiche FBI. Il 95% di questa comunità proviene dal DataSet 1 (prove fisiche). L'influencer è un documento fotografico classificato. Cluster quasi puro, confermando l'isolamento semantico delle prove fisiche osservato nell'analisi UMAP.

SINTESI — Pattern Emergenti

Convergenza dei risultati dalle tre analisi indipendenti

Convergenze tra le Analisi

1. Struttura Comunitaria Robusta

Sia l'analisi spettrale (40 comunità, modularità 0.82) che PageRank (42 comunità, modularità 0.81) convergono su una struttura altamente modulare. L'eigengap suggerisce 12 macro-cluster, che Louvain raffina in ~40 sotto-comunità. La modularità > 0.8 è eccezionalmente alta — i documenti si organizzano in gruppi tematici molto netti.

2. Raccolte Multi-Documento come Attrattori

EFTA01011526 emerge sia come gatekeeper spettrale (#2 per in-degree = 273) che come influencer PageRank (#7). Si tratta di una raccolta multi-documento di 1.099 pagine contenente email, allegati e materiale procedurale eterogeneo. La varietà tematica interna genera connessioni con molte comunità diverse, spiegando l'alto in-degree e il ruolo di ponte nella rete semantica.

3. Prove FBI: Isola Semantica Confermata

L'analisi UMAP conferma quantitativamente ciò che l'analisi comunitaria rivela: il DataSet 1 (prove FBI) è spazialmente e tematicamente isolato. Nella mappa UMAP, il suo centroide è distante ~10 unità dagli altri dataset. Nella rete PageRank, forma una comunità quasi pura (95% DataSet 1). L'unico gatekeeper del DataSet 1 nella top 50 è EFTA00000837 (#5) — documentazione fotografica di East Manhattan.

4. Nodi Diplomatici e Accademici come Ponti

I gatekeeper più significativi non sono documenti legali interni, ma connessioni con il mondo esterno: Terje Rød-Larsen (diplomazia, 14 comunità), Sean Parker (tech, 8 comunità), Martin Nowak (accademia, 6 comunità). Questi documenti collegano sfere altrimenti separate.

5. Il Ponte Rothstein-Wachovia

EFTA00610965 (registri giudiziari Rothstein/Wachovia Bank) connette 12 comunità distinte, il massimo tra tutti i gatekeeper. Scott Rothstein, condannato per frode da $1.2B, operava nello stesso distretto giudiziario di Epstein. Il suo caso giudiziario funge da "hub documentale" che collega procedimenti legali, bancari e investigativi.

PARRHESEPSTEIN — Network Analysis | Spectral Clustering + UMAP + PageRank su 30.000 chunk
Dati: DOJ FOIA Release • 3,185,489 chunk • ChromaDB + paraphrase-multilingual-MiniLM-L12-v2