Questo sito web utilizza i cookies per garantire all'utente la migliore esperienza possibile quando visita il sito web. L'utente è invitato a prendere visione della Privacy Policy per maggiori informazioni in merito. Facendo clic su "Accetto", l'utente accetta l'uso dei cookies non essenziali
IgnoraAccetto
11 Giugno 2022
Dati (in)affidabili? Ce lo spiega Benford! La legge di Benford Parte 3.
Marco Moscatelli
tempo di lettura: 4 min
Riprendendo il caso Enron, senza necessariamente pubblicare
analisi e/o dati sensibili, possiamo tranquillamente affermare che la frode
fiscale è stata analizzata seguendo proprio il principio della legge di
Benford. Gli importi, evidentemente gonfiati, sballavano le frequenze relative
delle cifre, cioè il conteggio delle prime cifre relative alle dichiarazioni
Enron non si avvicinavano minimamente alle percentuali di Benford.
Ci sono due considerazioni da fare:
la prima è che manomettendo i dati, cioè scrivendo un
importo, più in generale un numero, sostituendone un altro, si viola in qualche
modo il primo principio che vi ricordo essere la casualità della misurazione,
imponendone una propria; in sostanza è come affermare che il po' misuri 3000 km
al posto dei suoi 652 (ricordi delle scuole medie, potrei sbagliarmi) reali!
la seconda è che, se non si conosce questa legge, si rischia
facilmente di sballare il conteggio delle prime cifre in quanto nell'esempio di
prima la prima cifra è passata da 6 a 3 che di per sè, al momento della frode
uno non ci pensa, ma è proprio questa disattenzione che scatena
l'inaffidabilità dei dati!
Mi aggancio subito a una cosa, anzi a due:
Per una grande maggioranza di dataset è possibile
applicare Benford per vedere se i dati sono affidabili o meno e cioè se
rispettano le percentuali designate dalla legge allora sono affidabili,
altrimenti no!
La seconda è che in realtà, se si conosce la legge, c'è un
modo per aggirarla, ma non so se posso dirvi come, quindi non ve lo dico...
Nemmeno se mi scrivete.
Ecco perchè questa legge è forte ma anche pericolosa:
proprio perchè se la si conosce la si può aggirare.
Allo stesso modo questa analisi può essere traslata su
qualsiasi tipo di frode, ad esempio quella assicurativa, speculazioni ecc.
Cambiando completamente argomento, sapete come sono fatte le
immagini digitali? Anzi, sapete di cosa sono fatte? Le immagini digitali, altro
non sono che matrici che al loro interno contengono numeri; vado un po' più a
fondo perchè è importante.
Immaginiamo di avere un'immagine in bianco e nero 50x50,
avrò una matrice 50x50 che conterrà solo 0 (per il nero) o 1 (per il bianco) a
seconda del colore del relativo pixel.
Ora immaginiamo di avere un'immagine in scala di grigi
50x50, avrò una matrice 50x50 che conterrà numeri che vanno da 0 a 255, con 0
che indica il nero, 255 il bianco e in mezzo la gradazione di grigi a seconda
del colore del relativo pixel.
Ora immaginiamo di avere un'immagine a colori, qui la
situazione si complica ma nemmeno tanto: l'immagine viene scomposta in 3
matrici, R (red), G (green), B (blue) che al loro interno contengono numeri che
vanno da 0 a 255 per la gradazione rispettivamente del rosso, verde, blu (non
dei grigi). Questo perchè combinandoli si ottengono tutti i colori e quindi si
può risalire all'immagine originale.
Tutto questo preambolo per dire una cosa: l'immagine
originale segue Benford ma, se l'immagine originale viene ritoccata e salvata,
i numeri all'interno delle matrici cambiano e cambia quindi la frequenza dei
numeri da 1 a 9 di tali matrici, quindi cambiano le frequenze percentuali, e si
allontanano dalle percentuali di Benford! Questa analisi è fortissima per
scongiurare fake video, news e foto.
Immaginate quante volte un'immagine, prima di essere
pubblicata, venga ritoccata o un video modificato! Il problema vero è che sul
web troviamo infinite immagini e infiniti video di cui è impossibile avere il
controllo. Ci si può affidare a Benford per capire se un video o una foto siano
stati ritoccati.
Ricambiando discorso a un anno dalla pandemia decisi di
applicare Benford ai dati del covid in Italia e nel mondo; in particolare in
Italia mi urtava il fatto che il lunedì ci fossero sempre meno casi registrati
rispetto agli altri giorni e quindi mi son detto: "vediamo se i dati che
ci passano sono veritieri!".
Senza entrare nel merito, scoprii che i dati erano
distribuiti molto bene guardando l'insieme "Italia"; se però
analizzavo le regioni, non proprio tutte le regioni si distribuivano bene e
togliendole dall'analisi, l'italia si avvicinava molto molto bene alle
percentuali di Benford! In questo particolare caso ho utilizzato Benford per
verificare la bontà dei dati e ho risolto un dubbio che mi faceva stare sveglio
di notte (sempre però con quel campanello d'allarme che se si conosce la legge
la si può aggirare).
Fino ad ora vi ho scritto in maniera non molto precisa le
frasi "si distribuivano bene", "si avvicinavano a"
indicando che ad occhio la frequenza, ad esempio, degli 1 che trovavo io era
vicina a quella di Benford!
Ma quanto vicina? C'è un modo oggettivo per dichiarare
"Ok, questa è una frode" oppure "Ok, questi dati sono reali e
quindi affidabili"?
Assolutamente sì, ci sono 2 o 3 test scientifici che
misurano la bontà delle frequenze rilevate rispetto quelle attese!
Spero di aver dato una panoramica breve ma allo stesso tempo
chiara sulla potenzialità di questa legge matematica che può essere usata in
svariati ambiti e di aver suscitato interesse per provare a sviluppare le vostre
analisi.
P.S. Se scoprite cose scomode nelle vostre aziende, io non
vi ho detto nulla eh!