21 Maggio 2022

Dati (in)affidabili? Ce lo spiega Benford! La legge di Benford Parte 2.

Marco Moscatelli

tempo di lettura: 6 min

Image by Gerd Altmann from Pixabay
Come promesso, anche se non strettamente richiesto e forse non necessario, posso raccontarvi cosa feci appena venni a conoscenza della legge di Benford: fortunatamente, o sfortunatamente dipende un po' dai punti di vista, per lavoro ho a disposizione una grande quantità di dati.

L'importo delle fatture è un dato che si presta molto bene per la legge di Benford perchè l'importo è un valore che può assumere qualsiasi valore, quindi è libero da vincoli ed inoltre la quantità delle fatture è un numero significativamente alto; cioè per intenderci se prendete 10 fatture forse Benford non funziona ma se ne prendete, come nel mio caso, 80.000 abbiamo delle buone probabilità di riuscita! Come da manuale, quindi, presi solo la prima cifra a sinistra di ogni fattura, feci una bella pivot con Excel che contò al posto mio la frequenza delle cifre 1,2,3,4,5,6,7,8,9 e ottenni più o meno una tabella con percentuali molto vicine a quelle ottenute da Benford! Wow, ero troppo gasato! Sta cosa funziona davvero!

Mi dicevo: ma perchè? eh, forse era arrivato il caso di studiarne il significato?

No, non ancora! Avevo un altro dubbio da togliermi: volevo provare se avesse funzionato anche con le cifre del pi greco! Così mi scaricai le prime 10.000 cifre del pi greco, ogni cifra una cella excel, quindi avevo 10.000 righe delle quali non dovevo nemmeno preoccuparmi di tenere la prima cifra, tanto ne avevo solo 1!

Solita pivot, solite frequenze e... Delusione! Le percentuali erano completamente diverse! Preso da un attimo di sconforto mi ripresi subito, le cifre del pi greco NON possono prestarsi a Benford in quanto per prima cosa non sono rilevazioni casuali, cioè non sono n misurazioni, ma cifre consecutive di un numero, e seconda cosa sono vincolate da un rapporto, la cifra (n+1)-esima dipende dalla cifra n-esima (cioè che la cifra successiva dipende da quella precedente). E questo fatto, come dicevo nel precedente post, rafforza la legge di Benford, non la sminuisce in quanto a determinate condizioni VALE SEMPRE!

C'è un cambio di programma: avevo detto che per la dimostrazione matematica avreste potuto inviarmi una mail (cosa che potete ancora fare), ma non ce la faccio a non parlare di matematica essendo un matematico e, dato che ho trovato un modo per rendere interessante la dimostrazione, ve la descriverò.

Prendendo in considerazione i numeri che vanno da 1 a 10 con 10 escluso (da 1 a 9,99999 inclusi e 10 escluso perchè ha 2 cifre e considereremmo solo la cifra 1) proviamo a dividere in intervalli:

  • da 1 a 1,99999

  • da 2 a 2,99999

  • da 3 a 3,99999

  • da 4 a 4,99999

  • da 5 a 5,99999

  • da 6 a 6,99999

  • da 7 a 7,99999

  • da 8 a 8,99999

  • da 9 a 9,99999

E ora facciamo i rapporti tra l'ultimo e il primo numero dell'intervallo, cioè così:

  • 1,99999/1=1,99999 (circa 2)

  • 2,99999/2=1,49999 (circa 1,50)

  • 3,99999/3=1,33333 (circa 1,30)

  • 4,99999/4=1,24999 (circa 1,25)

  • 5,99999/5=1,19999 (circa 1,20)

  • 6,99999/6=1,16666 (circa 1,17)

  • 7,99999/7=1,14285 (circa 1,14)

  • 8,99999/8=1,12499 (circa 1,12)

  • 9,99999/9=1,11111 (circa 1,11)

È molto semplice vedere come i rapporti siano sempre più piccoli, no?

Questo dà luogo a un pensiero: se un rapporto è più grande allora ha più "spazio, margine, distanza, volume" quello che volete. Immaginate di paragonare 2 aree, non so la cucina e il bagno. Se il rapporto tra le aree è circa 2 vuol dire che la cucina è il doppio del bagno (come nel primo caso), quindi in cucina ci stanno molte più cose che nel bagno. Ma se il loro rapporto è vicino a 1, come nell'ultimo intervallo, allora le aree quasi si equivalgono e in entrambi gli spazi potete mettere un numero di cose uguale tra loro (nella cucina un pochino di più ma non di certo il doppio!). Quindi la probabilità di avere più numeri che iniziano con la cifra 1 è maggiore rispetto a quella di avere numeri con la cifra 2, che è maggiore rispetto a quella di avere cifra 3 e così via fino a 9; ma quanto di più? Questo è regolato da una formula che vi riporto solo per completezza B(i) = log (1 + 1/d) con B(i) che rappresenta la frequenza (ecco per questo se volete scrivetemi), ma vi basta sapere che la legge di Benford prevede queste percentuali per le cifre:

Guardate come i risultati di Benford siano molto molto vicini a questi risultati teorici! Mentre scrivo mi riaffascino come la prima volta che venni a conoscenza di questa legge!

Gli ambiti di utilizzo sono molteplici: frodi, bontà dei dati e delle misurazioni, immagini ritoccate, visualizzazioni di siti e tantissimi altri purchè rispettino le condizioni per essere applicati!

Non so se sono riuscito a passarvi un minimo della potenza, ma anche della pericolosità di questa legge e se non ci sono riuscito, nella prossima puntata, cercherò di calcare un po' la mano sugli ambiti di utilizzo di questa legge che sono davvero interessanti.


torna alle Ultime uscite

condividi l'articolo copiando questo link

Marco Moscatelli

Ciao, mi chiamo Marco e mi occupo di analisi dati. Mi piace applicare leggi matematiche a casi reali e in generale alla vita.

La matematica è l'insieme delle convenzioni che spiega tutto ciò che ci circonda.

CC-BY-SA icon orange - Creative Commons (modified by Masur) - http://mirrors.creativecommons.org/presskit/buttons/88x31/svg/by-sa.svg

Salvo dove diversamente indicato, il contenuto del blog di SIS. PRO Firenze è distribuito con Licenza Creative Commons Attribuzione - Non commerciale - Condividi allo stesso modo 4.0 Internazionale