Le cause di duplicati nelle liste di indirizzi possono essere diverse:
- Durante la composizione di indirizzi da fonti diverse è quasi inevitabile che sorgano dei duplicati perché solo molto raramente non v'è sovrapposizione tra le liste di indirizzi da comporre.
- I collaboratori concepiscono modalità diverse di acquisire un indirizzo: paradigmatico è l'inserimento del termine 'Via', che può essere scritto unitamente al nome della via oppure no. Ma può capitare che anche con lo stesso collaboratore gli indirizzi acquisiti abbiano una struttura diversa, come nel caso di momenti in cui si ha premura, per cui negli indirizzi vengono inseriti soltanto i dati strettamente necessari.
- Se il programma per l'acquisizione degli indirizzi non è sufficientemente flessibile, ad esempio, può verificarsi una doppia acquisizione degli indirizzi perché il programma non consente di memorizzare più di un interlocutore per ciascun indirizzo.
- Se il programma con il quale gli indirizzi vengono acquisiti non è predisposto per evitare duplicati già al momento dell'inserimento o se la funzione del programma appositamente prevista non è sufficientemente potente, il collaboratore che vuole acquisire il nuovo indirizzo potrebbe non rendersi conto che tale indirizzo esiste già nella lista di indirizzi.
Evitare inserimenti multipli nelle liste di indirizzi è quasi impossibile, pertanto ricercare di quando in quando eventuali duplicati in tali liste è ancora più importante. Molte soluzioni offerte per ovviare alla questione, o appositamente integrate nei programmi di gestione degli indirizzi, risolvono il problema solo parzialmente. Due indirizzi di per sé identici possono apparire molto diversi tra loro:
- In un indirizzo, ad esempio, il nome potrebbe precedere il cognome e nell'altro seguirlo.
- Il nome e altri componenti dell'indirizzo possono essere abbreviati.
- In particolare quando si tratta di nomi aziendali, è possibile che alcune parti della ragione sociale non vengano incluse, ad esempio se anziché 'Gruppo BMW' si inserisce solo 'BMW'.
- È possibile che singole lettere manchino, siano state scambiate con la lettera accanto o scritte in modo errato, ad esempio 'i' anziché 'j'.
- Maiuscole/minuscole possono differire. Negli indirizzi acquisiti dai moduli Web, ad esempio, spesso si rinuncia all'uso di maiuscole e l'inserimento è costituito esclusivamente da minuscole.
Il nome 'Albert Einstein' ad esempio potrebbe essere scritto così:
- (100%) Einstein Albert
- (95%) A. Einstein
- (98%) Albert Einssein
- (87%) Abert Meinstein
Il software appositamente sviluppato, risolve questo problema calcolando il valore percentuale per il grado di corrispondenza di due parole. Nell'esempio proposto, tra parentesi sono riportati i valori percentuali calcolati con DataQualityTools. Solitamente in questi programmi l'utente può definire, servendosi di un valore soglia, quanto grandi possono essere gli scostamenti tra due indirizzi riconosciuti come duplicati. Più basso è questo valore soglia e maggiori possono essere gli scostamenti tra due indirizzi, tanto più elevata è la probabilità che il programma restituisca occorrenze che in realtà non sono affatto duplicati. Se tutte le operazioni sono state svolte correttamente, l'utente può controllare il risultato della ricerca di duplicati ed eventualmente eliminare manualmente delle occorrenze dal risultato prima di far cancellare dalla lista gli indirizzi riconosciuti come doppi.
Due programmi adatti a questa operazione sono DataQualityTools e DedupeWizard:
- Per sapere in che modo sia possibile utilizzare il DedupeWizard per effettuare la ricerca di duplicati all'interno di una tabella, invitiamo a leggere l'articolo 'Ricerca di duplicati in Excel'.
- Il nostro articolo 'Ricerca di duplicati tra due tabelle in Access' spiega invece come cercare duplicati in due tabelle utilizzando DataQualityTools.