Skip to main content
Magnifying glass above keyboard of laptop.
Blog

Machine Learning e WorldCat: migliorare i record per la catalogazione e la ricerca

di Merrilee Proffitt

Questo post è stato scritto da Jenny Toves, Senior Technical Manager, OCLC Data Science and Analytics.

Qualsiasi sistema che aggreghi dati provenienti da migliaia di fonti necessita di processi sofisticati che riducano le duplicazioni* e garantiscano che i dati corretti restino permanenti. WorldCat è uno di questi sistemi, e riceve ogni giorno migliaia di record bibliografici dalle biblioteche di tutto il mondo. Che sia manuale o automatizzata, una qualche forma di deduplicazione dei record bibliografici ha iniziato a verificarsi già nei primi anni Ottanta. Sebbene il personale di OCLC e i bibliotecari delle istituzioni che partecipano al Member Merge Program effettuino quotidianamente una revisione manuale dei dati, la maggior parte dei record di WorldCat si basa su programmi di deduplicazione automatizzati. Sono quindi maturati i processi automatizzati introdotti negli anni Novanta, noti come Duplicate Detection and Resolution (DDR). Attualmente, ogni mese vengono rimossi in media 11.000 record manualmente e un milione in automatico. Inoltre, ogni mese uniamo milioni di nuovi record ingeriti a quelli già esistenti in WorldCat, il che significa che lavoriamo anche per ridurre i record duplicati prima della loro creazione.
 
Le regole e le istruzioni di catalogazione si sono evolute spesso nel corso dei decenni. Ciò significa che dovranno innovarsi continuamente anche in futuro per stare al passo con le ultime novità. Nel corso dei processi di fusione, il personale di OCLC ha esaminato attentamente i risultati per migliorare i processi, in particolare per quanto riguarda le fusioni inappropriate o mancate, e ha aggiornato di conseguenza il sistema basato su regole. Anche se il sistema funziona molto bene, alcuni record duplicati si intrufolano comunque in WorldCat, influenzando i catalogatori, i ricercatori e i flussi di lavoro del personale della biblioteca.  

Fortunatamente la tecnologia continua a progredire, quindi possiamo incorporare nuovi sistemi nei processi automatizzati. Negli ultimi anni, il Machine Learning (ML), già in circolazione da vari decenni, si è fatto strada nel mainstream. Un'ottima definizione generale di ML è "... algoritmi [che] costruiscono un modello basato su dati campione, noti come dati di addestramento, al fine di fare previsioni o prendere decisioni senza essere esplicitamente programmati per farlo". (Questa voce di Wikipedia fornisce una solida base per una comprensione generale del ML e di come si inserisce in altre aree come l'intelligenza artificiale o AI). La differenza critica tra ML e i nostri metodi attuali sta nell'ultima parte di questa definizione: senza essere esplicitamente programmati per farlo. Il metodo ML esamina i dati di addestramento - dati etichettati con le risposte corrette - per capire perché i dati sono etichettati in quel modo. Quindi applica ciò che ha "imparato" su un nuovo set di dati, e il ML fornisce una percentuale che ritiene sia stata etichettata in modo accurato.

All'inizio del 2022, al team Data Science di OCLC è stata presentata la sfida di utilizzare il ML per identificare i record duplicati all'interno di WorldCat. Se il ML potesse identificare ulteriori duplicati rispetto al DDR, questi potrebbero essere rimossi attraverso i nostri processi di risoluzione standard, garantendo la conservazione del record appropriato. Sono stati esaminati diversi algoritmi di ML, ma l'ostacolo più significativo è stato quello di raccogliere un set di dati di addestramento da sottoporre all'algoritmo preposto. Il team Data Science si è rivolto al team Data Quality per trovare i set di dati. Data Quality è stata in grado di fornire informazioni per le prime serie di revisioni. Tuttavia, allo stesso tempo abbiamo pensato a un'opportunità per i nostri membri di partecipare a questo processo, come molti fanno con la deduplicazione manuale. Questo è stato l'inizio dell'esercizio noto come etichettatura dei dati, in cui chiedevamo agli esperti di catalogazione delle biblioteche partecipanti di esaminare le coppie di record che il modello ML riteneva duplicati, etichettandole come tali.

User interface of the data labeling exercise, showing selection options and two records being analyzed for duplication.
Interfaccia utente dell'esercizio di etichettatura dei dati, che mostra le opzioni di selezione e due record in fase di analisi per la duplicazione. 

Verso la metà del 2022, il modello ML è stato perfezionato con un'analisi continua e il contributo del team Data Quality. È stata inoltre costruita e testata un'interfaccia utente per l'etichettatura dei dati. L'interfaccia permette agli utenti di recuperare una coppia di record bibliografici che sono potenziali duplicati. Gli utenti possono generare la coppia selezionando i valori per la lingua di catalogazione, il tipo di materiale e l'età del record. Una volta selezionate queste opzioni, sullo schermo appariranno due record. I campi sono stati evidenziati tra i record a seconda della loro differenza: il giallo indica la presenza di differenze tra i due campi; il verde indica due campi esattamente identici; la mancanza di colore indica un campo presente solo in uno dei record. Agli utenti è stato poi chiesto se questi due record descrivono la stessa cosa; hanno potuto rispondere "sì", "no" o "non è chiaro". Gli utenti hanno potuto anche spuntare delle caselle accanto a ciascun campo per indicare quali dati hanno portato alla loro decisione. Complessivamente, lo strumento conteneva ventimila coppie, con l'obiettivo di far recensire ogni coppia tre volte da recensori diversi.
  
I partecipanti al Member Merge Program sono stati introdotti al sistema a novembre; questo è stato poi distribuito a tutti i membri di OCLC all'inizio di dicembre. Lo strumento è stato attivo fino a metà aprile 2023. In questo lasso di tempo sono state valutate poco più di 34.000 coppie di potenziali duplicati. Pur non avendo tre recensioni per ogni coppia, sono stati raccolti molti dati per addestrare il modello ML. Abbiamo riscontrato che oltre il 95% delle coppie che hanno ricevuto più revisioni non presentava disaccordi tra i revisori. Ciò ha dimostrato che il modello era alla pari con gli esseri umani nell'identificazione dei duplicati. Questi dati sono stati utilizzati per perfezionare il modello, e il team Data Quality ha verificato l'accuratezza dei nuovi risultati.  

Presto implementeremo il modello di apprendimento automatico come parte del nostro impegno continuo volto a diminuire e risolvere i record duplicati in WorldCat. A partire dalla fine di agosto 2023, un primo ciclo di un (1) milione di record (quindi 500.000 coppie) sarà elaborato attraverso l'algoritmo di apprendimento automatico. Ciò comporterà la fusione di 500.000 record duplicati in WorldCat, migliorando e semplificando le esperienze di catalogazione, scoperta e prestito interbibliotecario, sia per il personale della biblioteca che per gli utenti finali. 

Grazie a tutti coloro che hanno partecipato al progetto! La vostra collaborazione contribuisce a far progredire la professione e la missione delle biblioteche in tutto il mondo.
 
*Il concetto di duplicato dipende completamente dall'utente che lo sperimenta. Il progetto di etichettatura descritto più avanti nel post chiede ai catalogatori se due record sono analoghi. Una definizione formale di "duplicazione" richiede probabilmente un post a sé stante.

**La datazione del record corrisponde alla data di pubblicazione dell'articolo. La DDR utilizza una serie di regole diverse per gli articoli pubblicati prima del 1830, poiché molti di questi rientrano nelle regole di catalogazione dei materiali rari. 

Questo post è stato scritto da Nathan Putnam, ex direttore Data Quality and Governance presso OCLC. Un ringraziamento speciale a Richard Urban, Senior Program Officer di OCLC Research Library Partnership, per la revisione di questo post. 

Il seguente articolo è stato pubblicato originariamente su Hanging Together – il blog OCLC Research

Scopri la suite di prodotti

Tecnologie bibliotecarie all'avanguardia, dati più completi e una comunità realmente collaborativa.

Open library filing cabinet with organised documents
Miliardi di record: uno nuovo ogni otto secondi
  • Migliora la discovery e attrai nuovi utenti 

  • Migliora la visibilità e renditi più riconoscibile 

  • Valuta e migliora la tua collezione 

Un'esperienza perfetta, anche al di fuori delle mura della biblioteca
Gestione di belle collezioni digitali brandizzate
Una piattaforma cloud per la gestione dei servizi bibliotecari