Biblioteca Istituto Zooprofilattico Sperimentale dell'Umbria e delle Marche
Sanità Pubblica Veterinaria: Numero 106, Febbraio 2018 [http://www.spvet.it/] ISSN 1592-1581
Documento reperibile all'indirizzo: http://spvet.it/indice-spv.html#edi106

torna alla copertina della rivista
torna all'indice generale di SPV

EDITORIALE:



Giornata Mondiale dei Dati Aperti 2018 e Zenodo.org
- Open Data Day 2018 and Zenodo.org

Raoul Ciappelloni



Abstract. The editorial is dedicated to Open Data inspired by important events such as: "Open Data Day - ODD 2018" and international projects such as "Zenodo Open Access Repository" and "Data World initiative". Not only in the scientific, but also in the technological and administrative fields, initiatives based on Open Data have become more and more important. These mainly concern creation and integration of open datasets in university and research centers projects. The expansion of this information offering also aims to fill up a gap between research institutions, companies and civil society, encouraging a better mutual understanding. A worthy side of interest, is that all initiatives cover a wide range of data: Publications, Posters, Presentations, Datasets, Images, Video / Audio, Software, Lessons. Each of these resources are normally described by metadata in different formats (JSON, MARCXML, Dublin Core, DataCite Metadata Schema) that allow them to be widely used and exchanged. The scientific enterprise aims to produce open data to allow any stakeholder to use them for diverse purposes (and to obtain recognition of the work done in the specific disciplinary area). However, we need to be able to increase the awareness of technical services and administrative functions of Public Bodies, on the need to preserve and disseminate data owned by them, in an open and interoperable format.

Riassunto. L'editoriale è dedicato ai dati aperti traendo spunto da importanti eventi come: "Open Data Day - ODD 2018" e progetti di portata internazionale come Zenodo Open Access Repository e Data World. Non solo in ambito scientifico, ma anche tecnologico ed amministrativo, sono ormai sempre di più le iniziative basate sugli Open Data. Queste riguardano principalmente la creazione ed integrazione di open dataset in progetti di università e centri di ricerca. L'ampliamento di questa offerta informativa ha anche lo scopo di colmare le distanze fra istituzioni di ricerca, imprese e Società civile, favorendo una migliore conoscenza reciproca. Particolare degno di interesse è che tutte le iniziative coprono un'ampia gamma di dati: Pubblicazioni, Poster, Presentazioni, Dataset, Immagini, Video/Audio, Software, Lezioni. Ogni risorsa è normalmente descritta da metadati in diversi formati (JSON, MARCXML, Dublin Core, DataCite Metadata Schema) che consentono una loro ampia utilizzazione. L'impresa scientifica ha come obiettivo l'apertura dei dati per consentire a qualsiasi portatore di interesse di servirsene per gli scopi più diversi ed ottenere il riconoscimento del lavoro svolto nella propria area disciplinare. Bisogna tuttavia essere capaci di sensibilizzare maggiormente i servizi tecnici e le funzioni amministrative degli Enti Pubblici, sulla necessità di conservare e diffondere i dati di proprio possesso, in formati aperti ed interoperabili.



Questo editoriale è dedicato ai dati aperti, parlando dei quali non si può fare a meno di citare l'evento più "recente" in questo settore, cioè l'iniziativa "Open Data Day - ODD 2018" (http://opendataday.org/it), che sta in relazione diretta con un altro evento ormai strutturato nel paesaggio degli Open Data, cioé l'Open Access Repository Zenodo (http://zenodo.org), nato nel 2013 e ormai diventato una realtà di riferimento per la comunicazione scientifica generalista a livello mondiale.
Cominciamo con l'Open Data Day osservando che ODD in inglese significa spaiato, strano, che non fitta ed è in effetti si tratta di un'iniziativa per diversi aspetti originale che punta l'attenzione sui dati liberamente accessibili, come motore dello sviluppo economico e culturale.
Cosa sono i Dati Aperti? Chi vuole saperlo può collegarsi al Sito DatiOpen (http://www.datiopen.it/; http://www.datiopen.it/it/catalogo-opendata) ed alla pagina sugli Open Data della Pubblica Amministrazione (https://www.dati.gov.it/), un catalogo nazionale dei metadati relativi alle informazioni rilasciate in formato aperto dagli Enti pubblici italiani.

I molteplici avvenimenti che hanno caratterizzato l'Open Data day sono stati resi accessibili via Web a partire dal 3 Marzo 2018. Si è trattato di una specie di Oktoberfest digitale, dove invece della birra sono le informazioni a scorrere a fiumi ed a livello mondiale.
La convention, arrivata alla quinta edizione, ha raccolto gruppi di lavoro, provenienti da tutto il mondo che hanno animato iniziative a livello locale incentrate sulla conoscenza e l'utilizzazione di dataset "open" che traggono origine da quelle comunità.
Si sono così mostrati i vantaggi di un'ampia disponibilità di informazioni incoraggiando, soprattutto i decisori istituzionali, ad acquisire concetti, tutt'altro che familiari e legati al senso comune come: formati aperti, open data repository, interoperabilità dei dati e licenze d'uso che ne favoriscono la diffusione.

Dalle parole di Opendataday.org, che presentano l'iniziativa, si coglie un certo entusiasmo "... Se hai un'idea su come usare i dati aperti, vuoi trovare un progetto interessante al quale contribuire, vuoi imparare come visualizzare o analizzare i dati o semplicemente vuoi tenerti aggiornato, vieni e partecipa ... Qualunque siano le tue capacità e i tuoi interessi, noi incoraggiamo la creazione di opportunità per imparare e per aiutare a far crescere la comunità globale dei dati aperti".

Finanziatori di Open Data Day 2018
Figura 1. I finanziatori di Open Data Day 2018
Figura 1. Backers of Open Data Day 2018


Il sostegno finanziario all'iniziativa è stato offerto da SPARC, Hivos Open Contracting, Hewlett Foundation, Mapbox per un valore di 12.500 US$. Si tratta oggettivamente di una "miseria", però utilissima e distribuita in una pioggia in mini-sovvenzioni. Questi nano-fondi hanno consentito la realizzazione di ben 272 eventi a livello locale del valore di 200-400 Dollari l'uno.
Nella pagina Web citata di seguito, Oscar Montiel spiega in dettaglio la sostenibilità economica dell'iniziativa che è certamente ammirevole e va al cuore del problema della circolazione delle informazioni della società globalizzata.
I gruppi di lavoro sovvenzionati da ODD sono riportati alla pagina " 2018 International Open Data Day mini-grant winners".

Progetti di Open Data Day 2018
figura 2. Tutti i progetti dell'Open Data Day - 2018
figure 2. Open Data Day all projects - 2018


Dati Aperti e ricerca
Com'era lecito aspettarsi è proprio in ambito scientifico che sono state reealizzate le più importanti iniziative basate sugli Open Data, come quella sostenuta da SPARC (Scholarly Publishing and Academic Resources Coalition - https://sparcopen.org/) in ambito internazionale.
Sulla pagina di Welcome di questa company si legge una condivisibile presa di posizione, che descrive bene l'approccio Open alla diffusione dei dati della ricerca:
"We deserve more than a read-only world. SPARC works to create a world in which anyone can access, build upon, translate, and improve knowledge - Meritiamo di più di un mondo di sola lettura. Sparc lavora per crearne uno nel quale chiunque può accedere, riutilizzare, tradurre e migliorare le conoscenze".
NSi tratta prevalentemente di iniziative di Enti ed Associazioni del sud del mondo: Africa, America Latina, Asia. Sono presenti Paesi come Ecuador, El Salvador, Filippine, Messico, Nepal, Etiopia, Nigeria, Tanzania, fra quelli europei troviamo la Spagna).

Le iniziative riguardano principalmente creazione ed integrazione di open dataset in progetti di centri di ricerca, finalizzati ad ampliare l'offerta informativa colmando lacune fra università imprese e Società civile.
La popolazione di database con open data è finalizzata a sostenere iniziative di sviluppo locale, cartografie open, con coinvolgimento non solo dei ricercatori ma anche degli studenti e delle Istituzioni che gestiscono il territorio.
Alcune sono molto specifiche, come quelle finalizzate all'impiego di open dataset per creare una maggiore consapevolezza dell'importanza della ricerca sulla salute, ma anche promuovere l'ambito editoriale estendendo il ciclo di vita delle pubblicazioni scientifiche, fino alla creazione di subset di open data per la valutazione delle sperimentazioni cliniche.

Il repository Zenodo.org
In stretto collegamento con queste iniziative informative per l'Open Science e "punto di approdo" per i dataset promossi e prodotti nel corso di iniziative come l'Open Data Day è Zenodo (http://about.zenodo.org).

Si tratta di un ambizioso progetto derivato dal progetto Open AIRE (Open Access Infrastructure for Research in Europe https://www.openaire.eu/; https://www.cineca.it/it/progetti/openaire), collegata all'iniziativa Open Researcher and Contributor ID - ORCID e gestita da un pool di Enti scientifici di rilievo internazionale. Ogni output di ricerca conservato, può valersi dello stesso trattamento previsto dal cloud dati del CRN, utilizzato da grandi strutture come High-Energy Physics Literature Database - INSPIRE HEP e CERN Document Server.
Non casualmente Zenodo evoca il nome di un mitico promotore della conservazione del sapere: Zenodoto di Efeso (IV secolo a.C.), che fu il primo responsabile della Biblioteca di Alessandria. Come editore della prima edizione critica delle opere di Omero, si potrebbe definire promotore del primo "General-purpose OA repository" di dati aperti.
Zenodo è una delle più importanti iniziative per l'Open Science. Lanciato nel 2013 come progetto europeo, ha avuto il merito di sperimentare l'inserimento aspecifico, in una banca dati, della produzione di dati derivati dalla ricerca: pubblicazioni, dataset, immagini, documentazione multimediale, codice sorgente ed altro. Il Sistema è così potenzialmente in grado di intercettare la gran parte della produzione scientifica, accettando anche pubblicazioni con risultati non conclusivi (un aspetto di grande importanza per la redazione di revisioni sistematiche).

Tutte queste risorse sono trattati come "dati" resi liberamente disponibili per ricercatori, aziende, altre banche dati e piattaforme informatiche di intelligenza artificiale.
Non siamo quindi di fronte ad una iniziativa ispirata ai consueti e-print repository accademici, ma ad un database generalista che consente, anche a singoli ricercatori, l'autoarchiviazione della produzione scientifica senza porre limiti di formato e di area disciplinare, con grande capienza (vengono consentiti singoli upload fino a 50 GByte).
Particolare degno di interesse è che Zenodo si è integrato con GitHub (https://github.com/, un servizio specializzato sull'hosting di progetti software) rendendo "citabile" il risultato della programmazione Open software in modo controllato, cosa particolarmente utile per i progetti Open Source.
Il servizio è gratuito. Seppure esistono e sono attive iniziative analoghe, come FigShare o Dryad, queste hanno caratteristiche non sovrapponibili con Zenodo, come si può constatare nella Tabella 1.


Tabella 1. Repository scientifici multidisciplinari
Repository Costo Limite di dimensione I dati debbono essere collegati
a pubblicazioni
Descrizione
Zenodo gratuito 50 GB per dataset No (re3data)
Figshare personal account gratuito
(a pagamento per editori ed istitiuzioni)
20 GB per i dataset non definito (FAIRsharing)
Dryad Digital Repository $120 USD per i primi 20 GB, e $50 USD per ogni 10 GB non definito non definito (FAIRsharing)
Harvard Dataverse gratis per dataset fino a 1 TB 2.5 GB per file, 10 GB per dataset No (re3data)
Open Science Framework gratuito 5 GB per file No (FAIRsharing)
Table 1. Multidisciplinary scientific repositories for the dissemination of research outputs
by: Nature Recommended Data Repositories. https://www.nature.com/sdata/policies/repositories


Zenodo è molto aperto, verrebbe da dire "democratico", con una interfaccia di caricamento dei dati molto semplice e accessibile tramite browser Web. Nella fase di upload vengono creati i metadati necessari alla catalogazione delle risorse inserite nel Sistema. Qualsiasi utente, anche non appartenente a specifiche comunità istituzionali, può inserire informazioni di sua proprietà in Zenodo. Bisogna sottolineare che il materiale caricato non subisce cambi di proprietà (ownership) rispetto all'assetto originale. I diritti di copyright non vengono ceduti nè parzialmente trasferiti a terze parti.

blocco di informazioni da inviare a Zenodo
Figura 3. Sezione per upload dei dati e delle pubblicazioni su Zenodo (informazioni e metadati)
Figure 3. Section for upload of data and publications on Zenodo (information and metadata)


Vediamo un po' più da vicino le caratteristiche del database. Zenodo può contenere diverse categorie di dati: Pubblicazioni, Poster, Presentazioni, Dataset, Immagini, Video/Audio, Software, Lezioni.
L'articolazione di ogni tipologia è a sua volta relativamente complessa. Lo si può vedere in figura 3 per la voce "publication". Si parte da book, journal article ed altro per finire con Technical note, working paper e other.
Il repository è pertanto idoneo a contenere ogni output dall'attività di ricerca, purché non in forma confidenziale (non è adatto per segreti industriali) o in contrasto con leggi e normative (tipicamente relativamente al copyright o la privacy).

file caricabili su Zenodo
Figura 4. File caricabili su Zenodo
Figure 4. Files that can be uploaded to Zenodo


Ogni risorsa è descritta da un set di metadati in formato JSON (Javascript Object Notation), esportabile in altri formati come: MARCXML, Dublin Core o DataCite Metadata Schema (seguendo le linee guida di OpenAIRE).

Digital Object Identifier & Zenodo
Ai file registrati su Zenodo viene assegnato un DOI (Digital Object Identifier, stringa alfanumerica che identifica un oggetto digitale). Questo aspetto è degno di nota. Zenodo attribuisce gratuitamente ai suoi utenti identificatori univoci, con codici che seguono lo schema: "10.5281/zenodo/...".
In tal modo i dati conservati nel database sono citabili tramite link durevoli, che consentono di veicolare metadati. In questo modo un dataset diviene reperibile, linkabile ed anche facilmente integrabile in altre iniziative ed elaborazioni.
I Reference manager come Zotero e Mendeley possono così elaborare le informazioni associale al record, utilizzando servizi come Crossref (https://www.crossref.org/) per il recupero di dati o di pubblicazioni associate all'identificatore.
Dal Maggio del 2017 c'è anche la possibilità di utilizzare una funzione di "versioning" dei DOI. Vengono in pratica forniti due identificatori, uno che punta al file originale e l'altro alle sue eventuali successive versioni. Ciò consente di tenere conto degli aggiornamenti del file conservato dopo la sua pubblicazione, cosa molto utile nel caso di software e di articoli scientifici.


Digital Object Identifier points to resource on Zenodo
Figura 5. Digital Object Identifiers (DOI) che puntano alle risorse localizzate su Zenodo
Figure 5. Digital Object Identifiers that point to resources located on Zenodo


Conclusioni
Ogni impresa scientifica ha come obiettivo primario quello di "aprire i suoi dati" al mondo, superare i limiti della diffusione editoriale per consentire a qualsiasi ricercatore di ottenere il riconoscimento del lavoro svolto e l'accesso ai risultati degli studi nella sua area disciplinare.
Aprire i dati, fare in modo che sia possibile non solo accedere, ma anche riutilizzarli, tradurli e migliorarli.

Per questo iniziative come l'Open Data Day sono importanti, anche se caratterizzate (come in questo caso) da progetti minuscoli. Con questi viene comunque spostata l'attenzione su un settore (quello degli Open Data) che in Italia stenta ancora a suscitare un vero consenso e a trovare procedure istituzionali cui fare riferimento.
L'Open Data Day è solo una iniziativa pubblicitaria intesa a creare un consenso sulle iniziative che liberano le informazioni di qualsiasi tipo, le conducono fuori dei contenitori istituzionali in cui sono state create e possano essere disponibili in modo che servano a qualcosa di utile.
Zenodo invece è un vero strumento di lavoro, altamente operativo e di grande valore per la ricerca. Ma non è solo questo. Le imprese che utilizzano tecnologie avanzate per il trattamento di Big Data (ricordiamo la Piattaforma Watson di IBM), possono trarre profitto da queste risorse informative per progetti software di marketing automation con servizi analitici utili per comprendere il comportamento di consumatori e fornire prodotti e servizi personalizzati (cosiddetti audience targeting).

Data.world

Assistiamo alla crescita di Sistemi specificamente dedicati alla elaborazione dei dati in modalità collaborativa come la piattaforma Data.world (https://data.world/) che consente di acquisire dataset da varie sorgenti "Open", allo scopo di elaborali ed integrarli in un prorio progetto (al momento della scrittura di questo lavoro Zenodo non è ancora fra queste, ma è previsto a breve il suo inserimento). Data.world è un esempio di integrazione dati molto versatile in comunità di interessi. I dati vengono raccolti, comparati e connessi per lo sviluppo di progetti di diversa natura (dall'analisi sulla produzione discografica dei Rolling Stones a text minimg negli atti di congressi scientifici). L'iscrizione ad un account personale è gratuita e così pure l'elaborazione di dataset fino a 100 MB.
Oggi, parlare di dati aperti riferiti alla ricerca biomedica significa andare al "centro" del problema informativo.
Come Biblioteca ci siamo già interessati a queste problematiche. Citiamo il Progetto ODApps Umbria "La scuola via di accesso ad open data / open source", che ha collegato i Circoli Didattici con la rete degli Istituti Tecnici Agrari della Regione e l’Istituto Zooprofilattico Sperimentale di Perugia e l'iniziativa SPOB - "Smart Poster - Ovud/Opendata - Biblioteche", in collaborazione con il Dipartimento di Medicina Veterinaria dell'Università di Perugia.
La maggiore difficoltà riscontrata nel corso di questi progetti è stata certamente la sensibilizzazione dei servizi tecnici e delle funzioni amministrative degli Enti Pubblici, sulla necessità di conservare e diffondere i dati, in formati aperti ed interoperabili. L'esperienza ed il materiale prodotto sono in via di pubblicazione su questa rivista.




Bibliografia

Migliorucci, S. (2016). OdApps Umbria: il progetto openness con la #scuol@alcentro. http://agendadigitale.regione.umbria.it/odapps-umbria-il-progetto-openness-con-la-scuolalcentro/

Montiel O. (2018). Announcing the Open Data Day 2018 mini-grants scheme. https://blog.okfn.org/2018/01/22/announcing-the-open-data-day-2018-mini-grants-scheme/

Iniziativa Open Science - Open Science Framework. https://osf.io/

Nature Recommended Data Repositories. https://www.nature.com/sdata/policies/repositories

Misale C. (2017). PiCo: A Domain-Specific Language for Data Analytics Pipelines. Doctoral School on Science and High Technology. https://doi.org/10.5281/zenodo.579753




OPEN REVIEW - Modulo per la "revisione aperta" di questo articolo, pubblicato sul numero 106/2018 di SPVet.it



Giornata Mondiale dei Dati Aperti 2018, Zenodo.org e Data.world
Ciappelloni 2018 - Giornata Mondiale dei Dati Aperti 2018 e Zenodo.org (SPVet.it 106/2018)

Creative Commons License
Giornata Mondiale dei Dati Aperti 2018 e Zenodo.org by Ciappelloni 2018 is licensed under a Creative Commons Attribution 4.0 International License.
Permissions beyond the scope of this license may be available at http://indice.spvet.it/adv.html.