Abbiamo applicato tre tecniche matematiche distinte sullo stesso campione di 30.000 chunk (campionamento uniforme su 3.14M documenti) per rivelare la struttura nascosta della rete documentale. Ogni analisi cattura un aspetto diverso: la struttura comunitaria (spettrale), la topologia dello spazio semantico (UMAP) e l'influenza relativa (PageRank).
Ogni documento diventa un nodo. Per ciascun nodo, calcoliamo i k=20 vicini più simili nello spazio coseno 384-dimensionale. Il peso di ogni arco è la similarità coseno:
Il Laplaciano normalizzato del grafo codifica la struttura di connettività. I suoi autovalori rivelano la separazione naturale in cluster:
L'eigengap (salto tra autovalori consecutivi) indica il numero naturale di cluster: il più grande salto dopo λ0=0 suggerisce il taglio ottimale.
Un gatekeeper è un documento che funge da ponte tra comunità diverse. Combinando la betweenness centrality (quanti cammini minimi passano per quel nodo) con il numero di comunità distinte a cui è connesso:
L'analisi degli autovalori del Laplaciano rivela un eigengap massimo tra λ11 e λ12 (gap = 0.00295), suggerendo che i documenti si organizzano naturalmente in 12 macro-gruppi tematici. L'algoritmo di Louvain, operando a risoluzione più fine, identifica 40 comunità con una modularità di 0.8206 (eccellente — indica struttura comunitaria molto forte).
I gatekeeper sono documenti che collegano comunità semantiche altrimenti separate. Un documento con alto gatekeeper score occupa una posizione strategica nella rete — rimuovendolo, interi cluster perderebbero connessione.
L'analisi ha identificato 45 ponti tra comunità. Le connessioni più dense rivelano quale tipo di documenti collega i diversi cluster tematici.
| Ponte | Archi | Documento A | Documento B |
|---|---|---|---|
| Comm 11 ↔ 13 | 7,789 | Email personali (Epstein) | Corrispondenza assistente (Lesley Groff) |
| Comm 7 ↔ 11 | 5,867 | Email in francese a Epstein | Corrispondenza personale varia |
| Comm 11 ↔ 35 | 4,298 | Corrispondenza quotidiana | Email con istruzioni operative |
| Comm 11 ↔ 26 | 3,428 | Kirkland & Ellis (plea deal) | Deutsche Bank (Richard Kahn) |
| Comm 0 ↔ 2 | 3,260 | Documenti legali USAO | Registri giudiziari / Rothstein |
| Comm 1 ↔ 2 | 1,811 | Documenti accademici / tech | Atti giudiziari Florida |
| Comm 1 ↔ 26 | 1,485 | Broadcom/Qualcomm (tech/finance) | Southern Financial Trading |
| Comm 7 ↔ 13 | 1,545 | Email multilingue | Documenti legali / FAA |
UMAP riduce lo spazio da 384 dimensioni a 2, preservando sia la struttura locale (documenti simili restano vicini) che quella globale (cluster distinti restano separati). A differenza di t-SNE, UMAP ha solide basi nella topologia algebrica:
Parametri: n_neighbors=15 (località), min_dist=0.1 (compattezza), metrica=coseno.
Sulla proiezione 2D, stimiamo la densità di probabilità con un kernel gaussiano su una griglia 200×200, usando il metodo di Scott per la bandwidth:
L'analisi KDE non ha rilevato vuoti semantici significativi (regioni a bassa densità circondate da alta densità). Questo indica che il corpus documentale copre lo spazio semantico in modo continuo e denso — non esistono "buchi" dove ci si aspetterebbe di trovare documenti ma non ce ne sono. La densità varia da 0 (bordi) a 0.0226 (picco), con mediana di soli 0.000025, indicando una distribuzione fortemente concentrata in pochi cluster densi.
| Dataset | Centroide (x,y) | Dispersione (σ) | N. Chunk | Caratteristica |
|---|---|---|---|---|
| DataSet 1 | (5.30, 13.04) | σx=2.78, σy=3.31 | 1,500 | Prove FBI — isolato nello spazio, cluster compatto |
| DataSet 9 | (10.45, 4.35) | σx=4.94, σy=3.92 | 13,500 | Documenti legali e email — la più ampia dispersione |
| DataSet 10 | (11.37, 4.55) | σx=4.25, σy=4.41 | 9,000 | Email e corrispondenza — sovrapposto con DataSet 9 |
| DataSet 11 | (12.50, 7.76) | σx=3.68, σy=3.50 | 6,000 | Email più recenti — leggermente spostato verso l'alto |
Il DataSet 1 (fotografie, rapporti FBI, prove fisiche) è spazialmente isolato rispetto agli altri tre dataset. Il suo centroide (5.30, 13.04) è distante ~10 unità UMAP dai centroidi di DataSet 9/10 (~10.9, ~4.5). Questo conferma che le prove fisiche dell'FBI hanno una natura semantica fondamentalmente diversa dalla corrispondenza elettronica e dai documenti legali.
| Densità Minima | 0.000000 |
| Densità Massima | 0.022601 |
| Media | 0.000867 |
| Mediana | 0.000025 |
Il rapporto media/mediana = 34.7x rivela una distribuzione estremamente asimmetrica: pochi cluster molto densi circondati da vaste regioni a bassa densità. La struttura è quella di "isole" tematiche dense collegate da "ponti" sottili di documenti di transizione.
Costruiamo un grafo diretto: ogni documento punta ai suoi k=15 vicini più simili. Il grafo risultante ha 30.000 nodi e 450.000 archi diretti. L'in-degree (quanti documenti puntano a un nodo) rivela quanto un documento è "attrattivo" nello spazio semantico.
L'algoritmo PageRank (inventato da Google) assegna a ogni nodo un punteggio di "importanza" basato sulla struttura ricorsiva dei link:
Un documento ha alto PageRank se molti documenti "importanti" gli somigliano. È una misura di centralità ricorsiva.
HITS distingue due ruoli: le Authority (documenti a cui molti puntano) e gli Hub (documenti che puntano a molte authority):
Combiniamo le tre metriche in un punteggio unico:
Il PageRank medio è 1/N = 0.0000333, ma il massimo raggiunge 0.00160 — 48 volte la media. Il 2.64% dei nodi (793 su 30.000) supera la soglia di mean+2σ. L'analisi ha rilevato 42 comunità con modularità 0.8132.
I documenti con il più alto Semantic Influence Score sono quelli che combinano alto PageRank, alto in-degree e alta Authority. Rappresentano i "baricentri" della rete.
Ogni comunità ha un "influencer" — il documento con il più alto Semantic Influence Score all'interno del cluster. Questi documenti definiscono il "tema" di ciascuna comunità.
Sia l'analisi spettrale (40 comunità, modularità 0.82) che PageRank (42 comunità, modularità 0.81) convergono su una struttura altamente modulare. L'eigengap suggerisce 12 macro-cluster, che Louvain raffina in ~40 sotto-comunità. La modularità > 0.8 è eccezionalmente alta — i documenti si organizzano in gruppi tematici molto netti.
EFTA01011526 emerge sia come gatekeeper spettrale (#2 per in-degree = 273) che come influencer PageRank (#7). Si tratta di una raccolta multi-documento di 1.099 pagine contenente email, allegati e materiale procedurale eterogeneo. La varietà tematica interna genera connessioni con molte comunità diverse, spiegando l'alto in-degree e il ruolo di ponte nella rete semantica.
L'analisi UMAP conferma quantitativamente ciò che l'analisi comunitaria rivela: il DataSet 1 (prove FBI) è spazialmente e tematicamente isolato. Nella mappa UMAP, il suo centroide è distante ~10 unità dagli altri dataset. Nella rete PageRank, forma una comunità quasi pura (95% DataSet 1). L'unico gatekeeper del DataSet 1 nella top 50 è EFTA00000837 (#5) — documentazione fotografica di East Manhattan.
I gatekeeper più significativi non sono documenti legali interni, ma connessioni con il mondo esterno: Terje Rød-Larsen (diplomazia, 14 comunità), Sean Parker (tech, 8 comunità), Martin Nowak (accademia, 6 comunità). Questi documenti collegano sfere altrimenti separate.
EFTA00610965 (registri giudiziari Rothstein/Wachovia Bank) connette 12 comunità distinte, il massimo tra tutti i gatekeeper. Scott Rothstein, condannato per frode da $1.2B, operava nello stesso distretto giudiziario di Epstein. Il suo caso giudiziario funge da "hub documentale" che collega procedimenti legali, bancari e investigativi.