Medicaid Provider Spending: Fraud Detection System

Analisi statistica multi-dimensionale per l'identificazione di anomalie e potenziali frodi nei dati di spesa Medicaid del Centers for Medicare & Medicaid Services (CMS).


Spesa Analizzata

Provider

Claims

Alto Rischio

1. Dataset e Preprocessing

Struttura dei dati grezzi
CampoDescrizione
BILLING_PROVIDER_NPI_NUMNPI del provider che ha emesso la fattura
SERVICING_PROVIDER_NPI_NUMNPI del provider che ha erogato il servizio
HCPCS_CODECodice della procedura medica (Healthcare Common Procedure Coding System)
CLAIM_FROM_MONTHMese di riferimento del claim (YYYY-MM)
TOTAL_PAIDImporto totale pagato ($)
TOTAL_CLAIMSNumero di claims
TOTAL_UNIQUE_BENEFICIARIESNumero di beneficiari unici
Preprocessing

2. Architettura del Sistema

3. Le 6 Tecniche di Rilevamento Frode

3a. Legge di Benford

Peso nel Risk Score: 10%
ANALISI DISTRIBUZIONALE

P(d) = log10(1 + 1/d),   d = 1, 2, ..., 9

Metriche calcolate
Livelli di analisi

3b. Outlier Statistici

Peso: Z-Score 20% + Isolation Forest 15% = 35%
ANALISI STATISTICA

Z-Score (peso 20%)

Z = (cost_per_claimprovider − mean_cost_per_claimHCPCS) / std_cost_per_claimHCPCS

Metodo IQR di Tukey

Lower fence = Q1 − 1.5 × IQR
Upper fence = Q3 + 1.5 × IQR
IQR = Q3 − Q1

Isolation Forest (peso 15%)

3c. Billing Mismatch

Peso nel Risk Score: 10%
ANALISI RELAZIONALE

Indicatori
Rete Billing-Servicing

3d. Anomalie Temporali

Peso: Spike 15% + Ghost 10% = 25%
ANALISI SERIE STORICHE

Spike Detection (peso 15%)

MoM_change = (spend_current_month − spend_prev_month) / spend_prev_month × 100%

Ghost Providers (peso 10%)

Provider Scomparsi

Deviazioni Stagionali

3e. Anomalie di Volume

Peso: Claims/Bene 10% + Concentrazione 10% = 20%
ANALISI VOLUMETRICA

Claims per Beneficiario (peso 10%)

ratio = claims_per_beneficiaryprovider,HCPCS / median_claims_per_beneficiaryHCPCS

Concentrazione di Procedura - Indice HHI (peso 10%)

HHI = ∑ (sharei)2,   sharei = spend_HCPCSi / total_spend_provider

3f. Risk Score Composito

Scala 0-100
SCORE AGGREGATO

ComponentePesoMetrica base
Z-Score Severity20%
Isolation Forest15%
Temporal Spike15%
Benford Deviation10%
Billing Mismatch10%
Ghost Provider10%
Claims/Beneficiary10%
Concentration (HHI)10%
Risk Score = ∑ (weighti × percentile_ranki)

4. Principali Risultati

18,612 provider ad alto rischio (3.1%)

Benford: conformita' globale, deviazioni locali

200 Ghost Providers con pattern "mordi e fuggi"

$320 miliardi (29.3%) in billing mismatch

Provider con concentrazione estrema

5. Conclusioni e Ipotesi Investigative

Ipotesi 1

Ipotesi 2

Ipotesi 3

Ipotesi 4

Ipotesi 5

6. Limiti dell'Analisi

Cosa questa analisi NON e'

7. Navigazione delle Analisi