Dati (in)affidabili? La legge di Benford Parte 3.

11 Giugno 2022

Dati (in)affidabili? Ce lo spiega Benford! La legge di Benford Parte 3.

Marco Moscatelli

tempo di lettura: 4 min

Riprendendo il caso Enron, senza necessariamente pubblicare analisi e/o dati sensibili, possiamo tranquillamente affermare che la frode fiscale è stata analizzata seguendo proprio il principio della legge di Benford. Gli importi, evidentemente gonfiati, sballavano le frequenze relative delle cifre, cioè il conteggio delle prime cifre relative alle dichiarazioni Enron non si avvicinavano minimamente alle percentuali di Benford.

Ci sono due considerazioni da fare:

la prima è che manomettendo i dati, cioè scrivendo un importo, più in generale un numero, sostituendone un altro, si viola in qualche modo il primo principio che vi ricordo essere la casualità della misurazione, imponendone una propria; in sostanza è come affermare che il po' misuri 3000 km al posto dei suoi 652 (ricordi delle scuole medie, potrei sbagliarmi) reali!
la seconda è che, se non si conosce questa legge, si rischia facilmente di sballare il conteggio delle prime cifre in quanto nell'esempio di prima la prima cifra è passata da 6 a 3 che di per sè, al momento della frode uno non ci pensa, ma è proprio questa disattenzione che scatena l'inaffidabilità dei dati!

Mi aggancio subito a una cosa, anzi a due:

Per una grande maggioranza di dataset è possibile applicare Benford per vedere se i dati sono affidabili o meno e cioè se rispettano le percentuali designate dalla legge allora sono affidabili, altrimenti no!
La seconda è che in realtà, se si conosce la legge, c'è un modo per aggirarla, ma non so se posso dirvi come, quindi non ve lo dico... Nemmeno se mi scrivete.

Ecco perchè questa legge è forte ma anche pericolosa: proprio perchè se la si conosce la si può aggirare.

Allo stesso modo questa analisi può essere traslata su qualsiasi tipo di frode, ad esempio quella assicurativa, speculazioni ecc.

Cambiando completamente argomento, sapete come sono fatte le immagini digitali? Anzi, sapete di cosa sono fatte? Le immagini digitali, altro non sono che matrici che al loro interno contengono numeri; vado un po' più a fondo perchè è importante.

Immaginiamo di avere un'immagine in bianco e nero 50x50, avrò una matrice 50x50 che conterrà solo 0 (per il nero) o 1 (per il bianco) a seconda del colore del relativo pixel.

Ora immaginiamo di avere un'immagine in scala di grigi 50x50, avrò una matrice 50x50 che conterrà numeri che vanno da 0 a 255, con 0 che indica il nero, 255 il bianco e in mezzo la gradazione di grigi a seconda del colore del relativo pixel.

Ora immaginiamo di avere un'immagine a colori, qui la situazione si complica ma nemmeno tanto: l'immagine viene scomposta in 3 matrici, R (red), G (green), B (blue) che al loro interno contengono numeri che vanno da 0 a 255 per la gradazione rispettivamente del rosso, verde, blu (non dei grigi). Questo perchè combinandoli si ottengono tutti i colori e quindi si può risalire all'immagine originale.

Tutto questo preambolo per dire una cosa: l'immagine originale segue Benford ma, se l'immagine originale viene ritoccata e salvata, i numeri all'interno delle matrici cambiano e cambia quindi la frequenza dei numeri da 1 a 9 di tali matrici, quindi cambiano le frequenze percentuali, e si allontanano dalle percentuali di Benford! Questa analisi è fortissima per scongiurare fake video, news e foto.

Immaginate quante volte un'immagine, prima di essere pubblicata, venga ritoccata o un video modificato! Il problema vero è che sul web troviamo infinite immagini e infiniti video di cui è impossibile avere il controllo. Ci si può affidare a Benford per capire se un video o una foto siano stati ritoccati.

Ricambiando discorso a un anno dalla pandemia decisi di applicare Benford ai dati del covid in Italia e nel mondo; in particolare in Italia mi urtava il fatto che il lunedì ci fossero sempre meno casi registrati rispetto agli altri giorni e quindi mi son detto: "vediamo se i dati che ci passano sono veritieri!".

Senza entrare nel merito, scoprii che i dati erano distribuiti molto bene guardando l'insieme "Italia"; se però analizzavo le regioni, non proprio tutte le regioni si distribuivano bene e togliendole dall'analisi, l'italia si avvicinava molto molto bene alle percentuali di Benford! In questo particolare caso ho utilizzato Benford per verificare la bontà dei dati e ho risolto un dubbio che mi faceva stare sveglio di notte (sempre però con quel campanello d'allarme che se si conosce la legge la si può aggirare).

Fino ad ora vi ho scritto in maniera non molto precisa le frasi "si distribuivano bene", "si avvicinavano a" indicando che ad occhio la frequenza, ad esempio, degli 1 che trovavo io era vicina a quella di Benford!

Ma quanto vicina? C'è un modo oggettivo per dichiarare "Ok, questa è una frode" oppure "Ok, questi dati sono reali e quindi affidabili"?

Assolutamente sì, ci sono 2 o 3 test scientifici che misurano la bontà delle frequenze rilevate rispetto quelle attese!

Spero di aver dato una panoramica breve ma allo stesso tempo chiara sulla potenzialità di questa legge matematica che può essere usata in svariati ambiti e di aver suscitato interesse per provare a sviluppare le vostre analisi.

P.S. Se scoprite cose scomode nelle vostre aziende, io non vi ho detto nulla eh!

torna alle Ultime uscite