7 Maggio 2022

Dati (in)affidabili? Ce lo spiega Benford! La legge di Benford Parte 1.

Marco Moscatelli

tempo di lettura: 4 min

Foto di Tung Nguyen da Pixabay
Non esistono vere e proprie prove tali da confermare l'intuizione secondo la quale l'astrologo Newcomb notò nei libri con tavole logaritmiche una maggiore usura tra le prime pagine rispetto alle ultime, ma mi piace pensare così, anche perchè, quando si parla di Benford, tutti i libri citano prima Newcomb. 

Egli infatti notò come le tabelle logaritmiche aventi 1 come prima cifra fossero più usurate rispetto a quelle aventi 2, le quali erano più usurate rispetto a quelle aventi 3 e così via fino a 9. Questa "affascinante" scoperta/intuizione, chiamatela pure come vi piace pensare, fu traslata poi su qualsiasi libro affermando, cioè, che le prime pagine dei libri, fossero molto più sporche e usate rispetto alle ultime.

 In realtà, quest'ultima affermazione, seppur fantastica, va smentita, perché non è affatto vera, anche se non nascondo che a me piace pensare così! In ogni caso, non ho ancora deciso se è più affascinante la scoperta della legge di Benford o la legge stessa, ma alla fine vi assicuro che avrete tutti gli elementi per farvi un'opinione.

Trasferendo questa geniale percezione sul piano dei numeri si può facilmente capire come le prime cifre, nei numeri stessi, siano distribuite in maniera non uniforme tra loro. 

Ad esempio se prendo dei numeri da 1 a 20 e considero la prima cifra dei numeri che vanno da 1 a 20 avrò: 

11 numeri che cominciano con la cifra 1: 1, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

2 numeri che cominciano con la cifra 2: 2, 20

1 numero che comincia con la cifra 3: 3

1 numero che comincia con la cifra 4: 4

1 numero che comincia con la cifra 5: 5

1 numero che comincia con la cifra 6: 6

1 numero che comincia con la cifra 7: 7

1 numero che comincia con la cifra 8: 8

1 numero che comincia con la cifra 9: 9

Ricapitolando: 11 volte 1, 2 volte 2 e tutto il resto 1 volta sola. Questo sbilanciamento, che si delinea con l'aumentare da 20 a, ad esempio, 4000, si assesta su frequenze ben precise, cioè il numero degli 1, dei 2, dei 3 ecc è "regolato" dalla legge di Benford. Fare questo conteggio senza utilizzare Excel o qualche altro foglio di calcolo diventa impegnativo ma sicuramente più "preciso", successivamente faremo qualche esempio pratico che vi farà rimanere a bocca aperta, sicuramente!

Perché si parla di Benford quando questa è solo un'intuizione sui numeri e perché Newcomb è stato messo in un angolo? Benford iniziò ad analizzare le prime cifre di dati reali giungendo ad una conclusione davvero interessante. Sto solo cercando, forse invano, di creare suspense, ma l'attesa è quasi terminata.

Benford raccolse dati tra le più svariate categorie come ad esempio la superficie dei fiumi, numero degli abitanti, lunghezza delle coste ecc, tutti dati reali e per ogni categoria fece questa analisi:

  1. raccolse i dati in colonna

  2. di ogni valore prese solo la prima cifra: ad esempio se la lunghezza di un fiume è 3456 miglia o km scrisse 3

  3. ottenne così una colonna di cifre che vanno da 1 a 9 (0 non è contemplato!)

  4. contò il numero di volte che le cifre si ripetevano, cioè le frequenze (come nel primo esempio fatto da me dei numeri da 1 a 20), in sostanza quanti 1 c'erano in quella colonna, quanti 2, ecc fino a 9

  5. fece delle percentuali.

Cosa ottenne? Ottenne, ad esempio per i fiumi, questa tabella:

Wow, che scoperta (ironico eh)! Eh, il punto è che per le coste ottenne più o meno lo stesso risultato, anche per il numero degli abitanti, anche per i numeri civici e anche per quasi tutte le altre categorie! La cifra 1 si attestò quasi sempre con il 31% di frequenza, il 2 intorno a 17%, il 3 intorno a 11% ecc. Questa particolarità, che non era ancora diventata legge in quanto era solo una semplice constatazione, diventò legge quando fu spiegata matematicamente (se volete la dimostrazione vi posso indirizzare, scrivetemi pure).

Non tutte le rilevazioni, però, si adattavano bene, e che ci crediate o meno, è proprio stata questa considerazione a rafforzare la legge di Benford, in quanto, come ogni legge matematica, è ben definita e dove è bene definita vale SEMPRE!

Mi soffermo proprio su questo particolare che è il nocciolo della legge di Benford in quanto ci sono due considerazioni da fare:la prima è che i dati DEVONO essere dati reali senza limitazioni, cioè ad esempio se faccio uno studio sulle altezze delle persone maggiori di 18 anni in centimetri non posso applicare Benford in quanto troverò solo persone più alte di 100 cm e minori di 299 e come prima cifra avrei solo 1 e 2; i dati devono quindi essere liberi di disporsi casualmente rispetto ad una variabile casuale. 

Benford fece calcoli su dati limitati e questi non seguivano le percentuali degli altri casi: questo fece perfezionare l'intuizione che fu poi regolata dalla matematica diventando legge. La seconda considerazione è che dei dati presi va isolata la prima cifra, tutte le altre non sono considerate.

Ricapitolando: prima cifra e raccolta dati senza particolare limitazione.

Prima di capirci qualcosa, prima addirittura di studiare la legge sottoforma di matematica, essendo come vi dicevo un po' scettico per natura e non fidandomi di nessuno, provai a fare degli esperimenti che vi racconterò nella prossima puntata insieme alle applicazioni di tale leggi in svariati ambiti.


torna alle Ultime uscite

condividi l'articolo copiando questo link

Marco Moscatelli

Ciao, mi chiamo Marco e mi occupo di analisi dati. Mi piace applicare leggi matematiche a casi reali e in generale alla vita.

La matematica è l'insieme delle convenzioni che spiega tutto ciò che ci circonda.

CC-BY-SA icon orange - Creative Commons (modified by Masur) - http://mirrors.creativecommons.org/presskit/buttons/88x31/svg/by-sa.svg

Salvo dove diversamente indicato, il contenuto del blog di SIS. PRO Firenze è distribuito con Licenza Creative Commons Attribuzione - Non commerciale - Condividi allo stesso modo 4.0 Internazionale