Tesi di dottorato

Deposito legale digitale delle tesi di dottorato di ricerca

Le Biblioteche Nazionali Centrali di Firenze e di Roma, nell’ambito del progetto Magazzini Digitali della Fondazione Rinascimento Digitale e in collaborazione con il gruppo di lavoro Open Access della CRUI, hanno realizzato e testato un servizio di raccolta automatica (harvesting) dei dati e dei metadati delle tesi di dottorato di ricerca ai fini del deposito legale, così come previsto dalla Circolare MiUR n. 1746 del 20 luglio 2007.

Il servizio di raccolta automatica (harvesting) consente a tutte le Università italiane che raccolgono le tesi di dottorato in formato digitale in un archivio aperto, secondo le raccomandazioni contenute nelle Linee guida per il deposito delle tesi di dottorato negli archivi aperti approvate dalla CRUI, di ottemperare agli obblighi di legge (senza ricorrere all’invio di documentazione cartacea).

La raccolta automatica dei dati e dei metadati delle tesi di dottorato da parte delle Biblioteche Nazionali consente un miglioramento dei servizi documentali e bibliografici riducendo i tempi di catalogazione e aumentando la visibilità delle tesi rendendo i record disponibili attraverso il Servizio Bibliotecario Nazionale.

Le tesi oggetto di embargo, per ottemperare agli obblighi di legge, verranno comunque raccolte. Secondo la normativa vigente in materia di dottorato, esse saranno consultabili nei locali delle Biblioteche Nazionali su PC privi di periferiche dopo il trattamento biblioteconomico in SBN.



Standard

Formato dei file

Il formato raccomandato per il file delle tesi di dottorato è preferibilmente il PDF/A. Sono in ogni caso accettati formati aperti .

Protocollo di scambio di metadati

Le università che intendono usufruire del servizio di deposito legale via harvesting automatico devono esporre i dati e i metadati relativi alle tesi di dottorato attraverso il protocollo OAI-PMH implementato dai principali applicativi software per la gestione di open archives, molti dei quali sono open source.

Formato dei metadati

Il formato dei metadati, obbligatorio, supportato dalle procedure di harvesting di depositolegale.it e’ MPEG21-DIDL.

La scelta di tale formato e’ dettata dalla necessita’ di poter identificare risorse digitali (tesi) composte da più file.

MPEG21 DIDL permette di identificare con precisione i componenti (didl:Component) della risorsa (didl:Item) e la cosiddetta JOP (jump off page), url della pagina web che riporta informazioni sulla risorsa utili alla consultazione mediante un browser.

L’uso del solo Dublin Core (oai_dc) permette di identificare, attraverso dc:identifier, solo la jump off page, senza ulteriori informazioni sui componenti.

In casi di eccezione, quali l’utilizzo di software autoprodotti o non supportanti DIDL, l’harvesting puo’ essere effettuato usando oai_dc esclusivamente se le tesi sono composte da un solo file riportato in dc:identifier .

Qui di seguito vengono date alcune indicazioni per l’esposizione dei metadati strutturale in formato MPEG21DIDL per gli applicativi EPrints e DSpace

Configurazione di EPrints 3

GNU EPrints 3 offre un sistema di plugin per la gestione dell’esposizione dei record via OAI. In particolare sono presenti una serie di moduli che implementano l’esportazione dei dati e la mappatura dal dataset interno al’applicativo verso i formati standard.

NOTA: le istruzioni che seguono sono pensate per un’installazione standard di GNU EPrints su un server con sistema operativo UNIX-like (Linux, Solaris, etc.). Qualsiasi riferimento alle cartelle di installazione è relativo alla cartella di installazione del software.

I plugin di esportazione in GNU EPrints si trovano nella cartella perl_lib/EPrints/Plugin/Export In particolare l’esposizione in DIDL viene implementata di default dal modulo perl DIDL.pm A sua volta il modulo DIDL.pm richiama il modulo DC.pm, dedicato alla mappatura dei metadati descrittivi in Dublin Core

Eprints abilita di default DIDL, verificare nel file archives/NOMEARCHIVIO/cfg/cfg.d/oai.pl

$oai->{v2}->{output_plugins} = { 
 "didl" => "DIDL", 
};

A causa di un errore presente nei sorgenti di Eprints (versioni 3.0 e 3.1), è necessario modificare manualmente nei file perl_lib/EPrints/Plugin/Export/DIDL.pm il nome errato del tag “Descriptior” col corretto “Descriptor”

  54: my $d1 = $plugin->{session}->make_element( "didl:Descriptior" );
  68: my $d2 = $plugin->{session}->make_element( "didl:Descriptior" );
  82: my $d3 = $plugin->{session}->make_element( "didl:Descriptior" );

Configurazione di DSPACE 1.5

Il DIDL Crosswalk può essere attivato come di seguito:

  • Decommentare oai.didl.maxresponse in config/dspace.cfg
  • Decommentare la riga DIDL Crosswalk (Crosswalks.didl=org.dspace.app.oai.DIDLCrosswalk ) nel file config/templates/oaicat.properties
  • Eseguire bin/install-configs
  • Riavviare Tomcat
  • Verificare l’attivazione del crosswalk all’ URL http://mydspace/dspace-oai/request?verb=ListRecords&metadataPrefix=didl

Per una guida completa alla configurazione di Dspace si faccia riferimento al seguente manuale redatto dal CILEA: Documentazione Harvesting BNCF

Uso di oai_dc

Per rendere possibile l’interoperabilità sintattica e semantica è necessario utilizzare il seguente schema di metadati relativi alle tesi di dottorato definito secondo lo schema base del Dublin Core (DC):

DatasetDublin CoreNote
titleDC:titleTitolo della tesi
creatorDC:creatorAutore dell’opera (nel formato cognome, nome); non obbligatorio, ma raccomandato è l’indicazione dell’anno di nascita dell’Autore inserito con la seguente sintassi cognome, nome <anno>
descriptionDC:descriptionabstract (meglio se in inglese)
languageDc:languagelingua (nel formato ISO639-1)
identifierDC:identifierURL a cui raggiungere il full-text della tesi o a una pagina intermedia
typeDC:typeTipologia di materiale, da impostare di default come Doctoral Thesis è importante per il recupero dei dati usare la forma inglese
contributorDC:contributornome del tutor (nella forma cognome, nome)
dateDC:dateData di discussione della tesi (min. Anno)
publisherDC:publishernome dell’università (è importante perché l’università di provenienza rende esplicito il valore della tesi)
formatDC:formatopzionale (mime type, size)
subjectsDC:subjectSettore Scientifico Disciplinare MIUR
rightsDC:rightsVa espresso secondo il vocabolario info:eu-repo. Maggiori dettagli alla pagina sulle tesi in embargo

OAI identifier univoco

I record esposti via oai-pmh devono avere un identifier univoco, comunemente legato alla base URL del repository.

Eprints nella configurazione standard espone i record oai con l’identifier “generic.eprints.org”. Per configurarlo, editare il file archives/NOMEARCHIVIO/cfg/cfg.d/oai.pl e modificare il seguente valore:

46: $oai->{v2}->{archive_id} = "generic.eprints.org"

Dspace automaticamente genera l’OAI identifier ricavandolo dalla base url di installazione.


La Procedura

Si invitano le Università che intendono usufruire del servizio di deposito legale mediante raccolta automatica a confermare la loro disponibilità con una comunicazione scritta al Direttore della Biblioteca Nazionale Centrale di Firenze e al Direttore della Biblioteca Nazionale Centrale di Roma. In allegato un modello di lettera alle Biblioteche.

Frequenza della procedura di raccolta automatica

La raccolta automatica (harvesting) dei dati e dei metadati delle tesi di dottorato avviene una volta al mese in modo incrementale.

Come fare per attivare la procedura di raccolta automatica

Per attivare la procedura è sufficiente utilizzare l’applicazione sul sito http://register-oai.depositolegale.it o in alternativa inviare una mail a oai@depositolegale.it.

Vi verranno inviate ulteriori istruzioni per consentire la raccolta delle tesi soggette ad embargo, che verranno ammesse alla sola consultazione attraverso PC privi di periferiche presso le Biblioteche Nazionali Centrali.

Evidenza dell’avvenuto deposito

Come evidenza dell’avvenuto deposito le Biblioteche Nazionali Centrali invieranno una mail al responsabile dell’archivio con allegato un file in formato .xml (e relativo .xsl per la visualizzazione) contenente l’elenco delle URI delle tesi depositate e la relativa impronta digitale in formato SHA-1 base32.

Istruzioni per la lettura della ricevuta xml.


La Sperimentazione

Alla sperimentazione della procedura di deposito legale delle tesi in formato digitale via harvesting automatico hanno partecipato l’Alma Mater Studiorum – Università di Bologna, l’Università Federico II di Napoli e l’Università di Trieste. Hanno contribuito alla definizione delle specifiche tecniche l’Alma Mater Studiorum – Università di Bologna per il software EPrints e l’Università di Trieste per il software DSpace.
Hanno successivamente aderito alla sperimentazione la LUISS, l’Università di Parma, l’Università Cattolica di Milano, l’Università degli Studi di Milano-Bicocca.

Alla redazione di questo documento hanno contribuito le Università coinvolte nella sperimentazione. Si prega di inviare osservazioni e commenti a redazione@depositolegale.it.

Versione 1 del 12 ottobre 2010

Leave a Reply