Skip to main content
Open garden gate and path leading from it.
Blog

Scalare la de-duplicazione in WorldCat: bilanciare l'innovazione dell'AI con la cura della catalogazione

di Bemal Rajapatirana

Abbiamo condiviso per la prima volta i nostri sforzi per sfruttare l'apprendimento automatico per migliorare la de-duplicazione in WorldCat in questo post del blog 2023, intitolato "Machine Learning e WorldCat".


La de-duplicazione è da sempre un elemento essenziale per mantenere e garantire la qualità di WorldCat, aumentare l'efficienza delle attività di catalogazione e semplificare la gestione dei dati. Tuttavia, l’attuale flusso di dati bibliografici, più rapido che mai, ci pone di fronte alla sfida di mantenere i record accurati, collegati e tempestivamente accessibili. La de-duplicazione basata su AI offre un approccio innovativo per ampliare queste operazioni in modo rapido ed efficiente, ma il suo successo dipende, in ultima istanza, dalla competenza umana. In OCLC abbiamo investito risorse significative in un modello ibrido che sfrutta l’AI per elaborare grandi volumi di dati, assicurando al contempo che catalogatori ed esperti OCLC restino al centro del processo decisionale.

Dai foglietti di carta all'apprendimento automatico

Molto prima di approdare in OCLC, mi occupavo della qualità dei dati bibliografici, quando la de-duplicazione era svolta esclusivamente in modo manuale. Nell'ambito di un "Programma di miglioramento della qualità", le biblioteche ci inviavano per posta dei foglietti con i dettagli dei sospetti duplicati, ciascuno corredato di una nota esplicativa del catalogatore. Noi smistavamo migliaia di questi foglietti codificati per colore negli armadietti della cancelleria: verde per i libri, blu per i materiali non librari, rosa per i periodici. Abbiamo persino riutilizzato i cassetti della cancelleria per conservare le schede dei duplicati che traboccavano: penne e blocchi per appunti erano impossibili da trovare.

A ripensarci oggi, si è trattato di uno sforzo comunitario lungimirante. Era però un lavoro lento e metodico che rifletteva la natura minuziosa dei nostri sforzi di allora. Ogni decisione di unire o mantenere separati i record nasceva da un giudizio umano. E, malgrado l’impegno, questo processo era intrinsecamente limitato nella scala: eravamo sempre impegnati a rincorrere i duplicati, piuttosto che a prevenirli.

Oggi, lavorando alla de-duplicazione basata sull'AI presso OCLC, sono colpita da quanta strada abbiamo fatto. Ciò che un tempo richiedeva anni, ora si realizza in settimane, con maggiore precisione, su un numero maggiore di lingue, scritture e tipi di materiale rispetto al passato. Il cuore del lavoro rimane lo stesso: la competenza umana rimane imprescindibile. L'AI non è una soluzione magica. Impara dai nostri standard di catalogazione, dal nostro giudizio professionale e dalle nostre correzioni.

Adottando un approccio ibrido alla de-duplicazione, possiamo utilizzare l'apprendimento automatico per svolgere le attività più onerose, garantendo al contempo che la supervisione umana guidi e perfezioni il processo.

Bilanciare innovazione e gestione in WorldCat

Per decenni, catalogatori, responsabili dei metadati e team di OCLC hanno lavorato con dedizione per mantenere l'integrità di WorldCat, assicurandone l’affidabilità e l’elevata qualità a beneficio di biblioteche e studiosi. La de-duplicazione è sempre stata al centro di questo sforzo, eliminando i record ridondanti per migliorare l'efficienza, la scoperta e l'interoperabilità.

Oggi l'AI ci permette di affrontare la de-duplicazione in modo innovativo, ampliando notevolmente la nostra capacità di identificare e unire i record duplicati su vasta scala. La sfida principale, tuttavia, non è semplicemente come applicare l'AI, ma farlo in modo responsabile, trasparente e conforme agli standard professionali di catalogazione.

Questo approccio scalabile alla de-duplicazione rappresenta un’estensione del nostro ruolo storico di custodi dei dati bibliografici condivisi. L’AI costituisce un’opportunità per potenziare le competenze umane, non per sostituirle.

Il cambiamento fondamentale nella de-duplicazione

Tradizionalmente, la de-duplicazione si basava su algoritmi deterministici e sull’attento intervento manuale di catalogatori e personale OCLC. Sebbene efficaci, questi metodi presentano limiti intrinseci.

Grazie ai metodi basati sull’AI, oggi possiamo:

  • Superare la barriera linguistica: il nostro algoritmo di apprendimento automatico gestisce in modo più accurato ed efficiente le scritture non latine e i record in numerose lingue, migliorando la de-duplicazione su scala globale.
  • Trattare un’ampia varietà di record: l'AI ci permette di identificare i duplicati in un ampio spettro di record bibliografici e di approfondire categorie di materiale complesse.
  • Preservare le collezioni rare e speciali: i processi di de-duplicazione basati sull’AI escludono deliberatamente i materiali rari, così da preservare documenti unici presenti negli archivi e nelle collezioni speciali.

Questi progressi ci permettono di produrre metadati più accurati e di garantire una qualità elevata su un ventaglio più ampio di risorse e lingue.

Cosa significa "AI responsabile" nella pratica

Il termine AI è spesso percepito con cautela, e a ragione: molte applicazioni suscitano legittime preoccupazioni su imparzialità, attendibilità e trasparenza.

Il nostro approccio è stato guidato da alcuni principi chiave:

  • L'AI deve valorizzare le competenze umane, non sostituirle. Abbiamo integrato la revisione umana e l'etichettatura dei dati per garantire che i modelli di AI siano addestrati tenendo conto delle migliori pratiche di catalogazione.
  • L'efficienza non deve andare a scapito dell'accuratezza. La de-duplicazione basata su AI è progettata per ottimizzare le risorse senza compromettere la qualità dei record.
  • La sostenibilità è prioritaria. Il nostro approccio è progettato per essere efficiente dal punto di vista computazionale, riducendo l'uso di risorse non necessarie e mantenendo risultati di alta qualità. Ottimizzando l'impronta dell'AI, garantiamo che la de-duplicazione sia economicamente sostenibile e scalabile nel tempo.

Questo approccio alla de-duplicazione non mira a ridurre il ruolo delle persone, ma a indirizzare la loro esperienza verso attività di maggior valore, che rafforzano il legame con le comunità di riferimento, liberandole dal dispendio di ore nella gestione manuale dei duplicati.

Catalogatori ed esperti OCLC partecipano attivamente a questo processo. Attraverso l’etichettatura e il feedback, contribuiscono a perfezionare la capacità dell’AI di riconoscere e gestire i duplicati.

L'AI come sforzo collaborativo e il futuro che ci attende

Non rimpiango le pile di foglietti o le pulizie trimestrali degli armadietti, ma ne rispetto il significato. L'AI non sostituisce quella cura, ma la estende. Mentre gli strumenti si evolvono, i nostri principi rimangono saldi. OCLC ha utilizzato da sempre la tecnologia per aiutare le biblioteche a gestire i loro cataloghi e le loro collezioni, e ora stiamo applicando la stessa visione all'AI: con rigore, efficacia e fedeltà al nostro impegno condiviso per la qualità dei metadati. Questo approccio all'innovazione consente alle biblioteche di soddisfare esigenze in continua evoluzione e di offrire valore ai loro utenti.

 


 

Partecipate oggi stesso all'iniziativa di etichettatura dei dati di OCLC e contribuisci a perfezionare il ruolo dell'AI nella de-duplicazione. La de-duplicazione basata su AI è un percorso collettivo e in continuo sviluppo, che trae forza dal contributo della comunità e dalla supervisione dei professionisti. Ogni partecipazione ha un impatto concreto sulla qualità e sull’efficienza di WorldCat, a beneficio dell’intera comunità bibliotecaria.

Ecco come partecipare (informazioni in inglese):


 

Il seguente articolo è stato pubblicato originariamente su OCLC Next

 

Scopri la suite di prodotti

Tecnologie bibliotecarie all'avanguardia, dati più completi e una comunità realmente collaborativa.

Open library filing cabinet with organised documents
Miliardi di record: uno nuovo ogni otto secondi
  • Migliora la discovery e attrai nuovi utenti 

  • Migliora la visibilità e renditi più riconoscibile 

  • Valuta e migliora la tua collezione 

Un'esperienza perfetta, anche al di fuori delle mura della biblioteca
Gestione di belle collezioni digitali brandizzate
Una piattaforma cloud per la gestione dei servizi bibliotecari