Otwieranie małych danych badawczych

Marta Hoffman-Sommer

Od początku istnienia nowożytnej nauki badacze udostępniali sobie wzajemnie wyniki prowadzonych badań naukowych. Rozwój technologii komputerowych umożliwił szybszą i bardziej efektywną wymianę wiedzy. Już w latach 70. XX wieku funkcjonowały ogólnodostępne bazy danych naukowych, służące poszczególnym społecznościom akademickim. Obecnie, gdy dzięki rozwojowi internetu mamy jeszcze szersze możliwości taniego i szybkiego rozpowszechniania informacji, coraz więcej mówi się o otwieraniu danych badawczych.

Po co otwierać dane badawcze?

Dane są otwarte wtedy, gdy są publicznie dostępne, w internecie, w sposób nieodpłatny i w takiej postaci, która pozwala na ich ponowne wykorzystanie. Jakie dane warto otwierać? W grę wchodzą tu przede wszystkim dwa duże obszary: dane publiczne – generowane przez instytucje państwowe – oraz właśnie dane badawcze, czyli takie, które zostały wytworzone, zebrane lub opisane na potrzeby prowadzonych badań naukowych. Tak rozumiane dane badawcze obejmują nie tylko dane liczbowe, lecz również zdjęcia, nagrania audio i wideo, dokumenty tekstowe, wykorzystywane kwestionariusze i ankiety, modele matematyczne, oprogramowanie, wyniki symulacji komputerowych i wiele innych obiektów.

Publiczna dostępność danych pozwala unikać duplikowania istniejących już wyników oraz umożliwia łączenie danych z wielu prac w duże zbiory, które można analizować całościowo. Odgrywa ona również podstawową rolę w ocenie jakości pracy naukowej, bo umożliwia faktyczną weryfikację wniosków i analiz przedstawianych w publikacjach naukowych. Dzięki temu łatwiejsze jest również wykrywanie przypadków nierzetelności naukowej (zarówno drobnych „przeoczeń”, jak i poważniejszych fałszerstw).

Duże i małe dane

Kiedy mowa o ponownym wykorzystaniu danych naukowych i o szczególnej wartości, jaką niosą dla rozwoju gospodarczego i społecznego, bardzo często przywoływane są duże dane (big data), których ogromny potencjał jest powszechnie doceniany. Ośrodki naukowe wytwarzające lub gromadzące duże dane zazwyczaj przechowują je w ustalonej formie, w określonych lokalizacjach, zgodnie z opracowanymi przez siebie procedurami. Wiele tego typu ośrodków na świecie ma również zasady dotyczące otwartego udostępniania danych. Przykładem może być CERN, który na specjalnie w tym celu uruchomionym własnym portalu (http://opendata.cern.ch/) udostępnia wszystkim zainteresowanym wybrane zbiory danych.

Inaczej wygląda sytuacja w zespołach naukowych wytwarzających małe dane (small data). Instytucje naukowe, w których prowadzone są badania, często nie prowadzą żadnej spójnej polityki długoterminowego przechowywania czy otwartego udostępniania takich danych. Wymagania dotyczące przechowywania i udostępniania danych są czasem nakładane przez redakcje czasopism naukowych, które publikują oparte na tych danych artykuły. W przypadku niektórych, wybranych typów danych takie rozwiązanie funkcjonuje już od wielu lat. Przykładem może być udostępnianie sekwencji genetycznych: już w latach 80. XX wieku wiele ważnych czasopism wymagało umieszczenia wszystkich publikowanych sekwencji w bazie GenBank (lub innej współpracującej). Dzięki temu baza szybko rozrosła się i stała się istotnym narzędziem pracy dla biologów. Bardzo możliwe, że w przypadku niektórych dawno zakończonych projektów naukowych sekwencje w GenBanku to jedyne wytworzone dane badawcze, które zostały odpowiednio zarchiwizowane i są po latach nadal dostępne i wykorzystywane.

W ostatnich kilkunastu latach, w trosce o jakość publikowanych badań – w przeświadczeniu, że ujawnienie danych jest kluczowe dla weryfikacji tych badań przez innych uczonych – w niektórych dziedzinach nauki redakcje czasopism zaczęły wymagać od swoich autorów publicznego udostępniania nie tylko wybranych rodzajów danych, lecz w ogóle wszystkich wykorzystanych w artykule danych badawczych. Dotyczy to czasopism z dziedzin tak różnych, jak biologia molekularna i psychologia.

Również od kilkunastu lat się zdarza, że wymagania dotyczące przechowywania i udostępniania danych są nakładane na badaczy przez instytucje finansujące naukę w ramach umów grantowych. Takie rozwiązanie jest obecnie szeroko stosowane np. w Wielkiej Brytanii. W Polsce wymagania grantodawców dotyczą jedynie tych badaczy, którzy uzyskali finansowanie ze środków Komisji Europejskiej, z tych części programu Horyzont 2020, które są objęte Pilotażem Otwartych Danych Badawczych – jest to bardzo niewielki odsetek naukowców. Tak więc zazwyczaj od samych naukowców zależy, co się dzieje ze zgromadzonymi przez nich danymi badawczymi.

Jak otwierać małe dane?

Tymczasem małe dane mogą być bardzo wartościowe. Najlepszym przykładem jest wspomniany już GenBank, którego trzon tworzą depozyty pochodzące od indywidualnych zespołów (choć obecnie deponowane są tam również dane z dużych projektów genomowych). Podobnych specjalistycznych baz danych naukowych jest bardzo wiele w różnych dziedzinach nauki. Są standardowym narzędziem w pracy naukowej.

Wszystko to powoduje, że coraz częściej mówi się o potrzebie odpowiedniego archiwizowania i publicznego udostępniania także tych danych badawczych, dla których nie funkcjonują żadne wyspecjalizowane bazy. Różnorodność danych wykorzystywanych w badaniach jest tak duża, że nie możemy zakładać, iż powstanie specjalistyczne archiwum na każdy rodzaj danych. Z tego względu zaczęły powstawać ogólne repozytoria danych (catch-all). Można w nich przechowywać dane wszelkiego rodzaju – wszystkie formaty plików są dopuszczalne – i ze wszystkich (lub bardzo wielu) dziedzin nauki. Jednak ogromna różnorodność rodzajów i formatów danych badawczych stanowi jedno z głównych wyzwań związanych z ich przechowywaniem i udostępnianiem. To właśnie jednorodny typ danych, jakie przyjmują bazy wyspecjalizowane (np. tylko sekwencje genetyczne), jest jednym z istotnych czynników ich sukcesu: pozwala to na daleko posuniętą standaryzację formatów i opisów deponowanych danych, dzięki czemu łatwo z nich korzystać. Natomiast rozwiązania stosowane w repozytoriach ogólnych raczej umożliwiają niż wymuszają takie opisanie i udokumentowanie danych, by były zrozumiałe dla potencjalnych użytkowników i by dało się je odnaleźć. Jest to bezpośredni rezultat elastyczności, która pozwala wykorzystać je do przechowywania danych wszelkiego rodzaju.

Jednak tylko dane dobrze opisane będą się naprawdę nadawały do powtórnego wykorzystania, dlatego tak ważne jest to, by o dokumentacji pamiętać. W repozytorium ogólnym nie tylko opis, ale również kwestia doboru formatu spoczywa na osobach zamieszczających dane. Należy dobrać taki format pliku, który umożliwia jak najlepszą interoperacyjność danych (techniczną kompatybilność z innymi podobnymi danymi), tak by przyszli użytkownicy mogli maszynowo analizować dane oraz łączyć je z innymi zbiorami.

Aby dane mogły być w pełni wykorzystywane, muszą być nie tylko opisane i odpowiednio przygotowane od strony technicznej, lecz także wolne od nadmiernych ograniczeń prawnych. Z tego względu zalecane jest korzystanie z wolnych licencji, które zezwalają użytkownikom danych na szersze wykorzystanie również takich zbiorów, które są chronione prawem autorskim lub prawem o ochronie baz danych. Bez dodatkowej licencji użytkownik nie ma bowiem prawa na przykład maszynowo analizować danych.

Wyszukiwanie danych

A jak potencjalni użytkownicy mogą trafić na interesujące ich dane? W przypadku serwisów wyspecjalizowanych, dobrze znanych w danej społeczności akademickiej, użytkownicy zazwyczaj korzystają z nich bezpośrednio. Jednak w przypadku repozytoriów ogólnych potrzebne są inne rozwiązania. Powstają serwisy agregujące, które pozwalają przeszukiwać kolekcje wielu repozytoriów jednocześnie – na poziomie ogólnoeuropejskim taką funkcję pełni portal OpenAIRE (https://www.openaire.eu/).

Jednak żaden agregator nie jest obecnie wystarczająco rozbudowany, by zastąpić wyszukiwarki internetowe. Właśnie ze względu na wyszukiwalność zbioru ważne jest to, by danym towarzyszyły: informatywny tytuł, przemyślane słowa kluczowe, link do powiązanej z danymi publikacji (o ile taka istnieje). Takie odrębne zestawy informacji opisowych (metadanych) odróżniają zbiory danych w repozytoriach od danych załączanych do publikacji naukowych w postaci tzw. informacji uzupełniających (Supplementary Material), na które można trafić wyłącznie poprzez artykuł naukowy. To jeden z powodów, dla których umieszczenie danych w repozytorium jest dla ich autora(ów) korzystniejsze niż dołączenie ich do publikacji. Drugim takim powodem jest większa trwałość i bezpieczeństwo danych w repozytorium, które powinno zapewnić im profesjonalną opiekę (data curation).

Zenodo i RepOD

Obecnie naukowcom pracującym w Polsce, którzy chcieliby gdzieś przechowywać i udostępniać dane, ale nie znajdują na nie odpowiednich baz specjalistycznych, można polecić dwa przeznaczone do tego repozytoria ogólne. Repozytorium Zenodo (https://zenodo.org/), prowadzone w CERN, zostało sfinansowane ze środków Komisji Europejskiej i jest przeznaczone dla całej europejskiej społeczności akademickiej. Umożliwia ono przechowywanie danych zarówno w wersji otwartej, publicznie dostępnej, jak i w postaci depozytów zamkniętych, gdy dane z jakichś względów (często prawnych) nie mogą zostać upublicznione. Można w nim zamieszczać również publikacje naukowe.

Z kolei Repozytorium Otwartych Danych RepOD (https://repod.pon.edu.pl/) zostało uruchomione w zeszłym roku w ramach działań Platformy Otwartej Nauki w ICM na Uniwersytecie Warszawskim i jest przeznaczone dla całej polskiej społeczności akademickiej. Przyjmuje wyłącznie otwarte dane badawcze. RepOD oferuje też wsparcie dla osób pragnących zdeponować dane, zarówno w kwestiach przygotowania danych, jak i w przypadku wątpliwości prawnych związanych z ich udostępnieniem.

Dr Marta Hoffman-Sommer, Centrum Otwartej Nauki, ICM Uniwersytet Warszawski