Badania oparte na danych

Jan Kozłowski

Określenie „badania oparte na danych”, stosowane do opisu nowej fazy rozwoju badań naukowych, nie jest powszechnie akceptowane. Badania zawsze były oparte na danych, mówią jedni. Badania opiera się na hipotezach, nie na danych, argumentują inni. Faktem jest, że nauka weszła w „przejście fazowe”, które obejmuje nie jedną, ale wszystkie dziedziny, oraz że dane znajdują się w centrum tej nowej rewolucji naukowej.

Dane zmieniają nie tylko naukę, lecz także sposób, w jaki żyjemy, prowadzimy działalność gospodarczą i zarządzamy organizacjami. Dane są coraz bardziej paliwem i motorem wzrostu gospodarczego. Dawniej dane uznawano za bezużyteczne lub zdeaktualizowane, gdy tylko spełniły cel, dla którego je zebrano. Dziś stają się one surowcem działalności gospodarczej i naukowej.

W ciągu najbliższych 50 lat, w miarę rozwoju teleinformatyki, charakter procesu naukowego zmieni się bardziej niż w ciągu ostatnich 400 lat, wieszczy Kevin Kelly. Badania naukowe stają się z każdym rokiem coraz bardziej „danochłonne”. Teleinformatyka radykalnie zmienia sposób, w jaki dane się zbiera, przechowuje i wykorzystuje. Dane zbiera się i tworzy szybciej i w większych ilościach niż kiedykolwiek. Nie tylko przez badaczy, ale przez firmy, obywateli, gospodarstwa domowe, organizacje rządowe i pozarządowe. Nowy świat łatwo dostępnych danych zmienia naukę, jej tematy, metody (analityka wizualizacyjna), formy społeczne (nauka obywatelska, crowdsourcing), sposoby komunikacji (wizualizacje, blogi, „wzbogacone publikacje” enriched publications, otwarte notesy badawcze, repozytoria wersji roboczych prac naukowych).

Astronomia i genomika, które jako pierwsze doświadczyły wybuchu danych w 2000 roku, ukuły termin „big data”, obecnie przeniesiony na inne obszary. Pojęcie wielkich danych jest względne i oznacza sytuację, gdy nie da się ich przetwarzać za pomocą powszechnie dostępnych metod. „W zależności od branży i stopnia złożoności algorytmu może to oznaczać rozmiar terabajtów lub petabajtów (np. analiza zderzeń cząstek elementarnych w fizyce wysokich energii), jednak w innych zastosowaniach będą to już megabajty bądź gigabajty (np. porównywanie billingów telefonicznych w telekomunikacji)” (Wikipedia).

Od zarania cywilizacji do 2003 roku stworzono pięć eksabajtów informacji; teraz taka sama objętość powstaje w ciągu zaledwie dwóch dni. Ilość danych dramatycznie wzrosła, obejmując dziś np. dane internetowe (media społeczne), dane z badań (np. raportów branżowych), dane o lokalizacji (np. dane z urządzeń mobilnych), dane geoprzestrzenne (np. satelitarne), dane z łańcucha dostaw (np. katalogi dostawców) i dane z urządzeń (np. czujniki). „Big data” to kolejne ogniwo w rozwoju teleinformatyki (komputery mainframe, PC, komputery typu klient-serwer, internet, cloud computing, komputery przenośne i sieci społecznych, big data). Wielkie dane opisuje się wg schematu 3V: duża ilość danych (ang. volume), duża zmienność danych (ang. velocity), duża różnorodność danych (ang. variety).

Dane rozsadzają naukę

Wielkie dane, podważając badania ankietowe, kwestionują zarazem rdzeń statystyki oraz empirycznej socjologii. Tradycyjne atrybuty jednostek, takie jak płeć, wiek, naród, klasa, wykształcenie, wykorzystywane przez socjologię od ponad stu lat, wydają się mieć mniejsze znaczenie od „elektronicznego odcisku palca”, pozostawianego przez jednostki podczas zakupów internetowych lub w wyniku udziału w sieciach społecznościowych. Dane neuroobrazowania, oparte na rezonansie magnetycznym, są pożywką dla rozwoju neuroekonomii, rozsadzającej powoli ekonomię. Nauki społeczne i ekonomiczne, które tradycyjnie opierały się na statystykach spisowych i badaniach opartych na reprezentatywnych próbach populacji, mogą teraz korzystać z danych w czasie rzeczywistym na poziomie całych populacji. Szersza możliwość odkrywania wzorów i korelacji pozwala też zmniejszyć zainteresowanie przyczynowością. Korelacja nie może nam powiedzieć, dlaczego coś się dzieje, ale zwraca uwagę, że to się dzieje. Praca na wielkiej ilości danych pozwala przywiązywać mniejszą wagę do dokładności. Popełniając mniej błędów niż w pracy na próbach, można dopuścić większy błąd pomiaru, stwierdzają autorzy książki Big data. A revolution that will transform how we live, work and think (2013).

Chociaż niektóre pola badań zawsze opierały się na dużych zbiorach danych, cechą charakterystyczną obecnego rozwoju nauki jest wzrost znaczenia danych jako podstawy wnioskowania we wszystkich dziedzinach nauki, nie wyłączając humanistyki i nauk społecznych. Inną cechą rozwoju jest rola maszyn i algorytmów do wyciągania sensu z dużych ilości danych.

Technologie informacyjno-komunikacyjne nie tylko zmieniają sposób tworzenia i gromadzenia danych, lecz także pomagają przeprowadzać ich głębszą analizę, stwierdza najświeższy raport OECD Data-Driven Innovation 2015 (podstawowe źródło artykułu). Nowe możliwości rosną także dzięki technikom eksploracji danych. Niektóre dyscypliny naukowe znajdowały się od dawna na froncie zbierania, walidacji i magazynowania danych. Jednak w ostatnich latach, dzięki upowszechnieniu teleinformatyki, także inne dyscypliny, nawet humanistyka, są coraz bardziej oparte na danych. Różne dziedziny naukowe są coraz bardziej ze sobą powiązane: dane uzyskane w jednej dziedzinie badań mogą być poddawane obróbce dzięki technikom tradycyjnie należącym do innych dziedzin badań. Na przykład ze względu na dużą skalę zbiorów, dane nauk społecznych mogą dziś być przetwarzane dzięki zastosowaniu algorytmów i metod tradycyjnie należących do fizyki i nauk komputerowych. Jako przykład można przytoczyć badania dynamiki systemu nauki, prowadzone na podstawie danych bibliometrycznych przez byłych lub aktualnych fizyków. Podobnie jak przedsiębiorcy wykorzystują dostępne dane biznesowe lub rządowe do tworzenia nowych wyrobów i usług, badacze sięgają po otwarte dane badawcze, aby ujawniać nowe związki lub wzory, które nie były widoczne wcześniej, a także aby formułować i testować nowe hipotezy oraz ulepszać przewidywalność modeli.

Rewolucja danych

Dane naukowe różnią się między sobą co do rodzaju i wielkości, a także użytku i długoterminowej wartości. Cztery rodzaje danych, najważniejsze w badaniach naukowych, to:

– dane obserwacyjne z teleskopów, satelitów, sieci czujników i ankiet. Kategoria ta obejmuje również badania nauk społecznych, np. badania demograficzne;

– dane doświadczalne z akceleratorów, badań klinicznych, biomedycznych i farmaceutycznych, a także z eksperymentów kontrolowanych;

– dane obliczeniowe pozyskiwane z symulacji komputerowych;

– dane referencyjne, takie jak mapowanie ludzkiego genomu, Światowy Bank Danych Protein, Badanie Panelowe Dynamiki Przychodów.

Po narzędzia analizy danych, takie jak np. techniki rozpoznawania wzorów, coraz częściej sięgają badacze, aby poznać zjawiska i testować modele. Wielkie dane pozwalają przeprowadzać komputerowe eksperymenty i symulacje nawet w tych dziedzinach, w których tradycyjne eksperymenty laboratoryjne były niemożliwe lub zbyt trudne do wykonania. W dobie ogromnych zbiorów danych zakwestionowano nawet sens budowy modeli, argumentując, że przy dostatecznie dużych zestawach maszyny mogą same wykrywać złożone wzory i relacje niewidoczne dla naukowców.

Badania przeprowadzane na „wielkich danych” i eksperymenty oparte na algorytmach same w sobie stanowią okazję do innowacji i odkryć naukowych: badania oparte na danych dają szansę opracowania nowych i bardziej skutecznych algorytmów analitycznych, możliwych do stosowania przez badaczy z różnych dyscyplin. Nowe instrumenty, takie jak superzderzacze i teleskopy, ale także internet, które zmieniły skalę i szczegółowość gromadzonych danych, to klucze do nowych osiągnięć w nauce. Rosnąca moc analityki danych pozwala szybko wydobyć wiedzę z bardzo dużych zbiorów danych. Np. w genetyce maszyny do sekwencjonowania genów DNA oparte na analizie wielkich danych mogą teraz czytać około 26 miliardów znaków ludzkiego kodu genetycznego w ciągu kilku sekund. Łączy się to ze znacznym spadkiem kosztów sekwencjonowania DNA.

W miarę jak nauka staje się w większym stopniu oparta na danych, a teleinformatyka oferuje nowe możliwości łączenia i dzielenia się wiedzą, pojawiają się międzynarodowe platformy do wspierania badań naukowych i współpracy sieciowej. Celem ich jest promowanie nie tylko udostępniania danych, lecz także wymiany informacji do tworzenia wspólnych projektów badawczych. Dotyczą one albo konkretnych tematów, albo szerokich dyscyplin; często są one związane z podejmowaniem wyzwań społecznych, takich jak zmiana klimatu, ochrona zdrowia lub środowiska oraz współpraca Północ-Południe. Jako przykład można przytoczyć Open Source Drug Discovery (OSDD), platformę internetową nowych leków, która skupia naukowców z obszaru OECD oraz krajów rozwijających się w celu opracowania terapii chorób endemicznych w tych krajach, takich jak malaria, gruźlica i Leiszmanioza.

Dane dotyczące kwestii o znaczeniu globalnym, takich jak zdrowie, środowisko naturalne, zmiany klimatu lub starzenie się społeczeństwa, zbiera się i analizuje w ramach wielkich międzynarodowych interdyscyplinarnych projektów badawczych, takich jak projekt Ludzki Mózg, sponsorowany przez Komisję Europejską, oraz inicjatywa Mózg w Stanach Zjednoczonych. Projekty te łączą w sobie wiele dyscyplin naukowych, takich jak biologia, medycyna, informatyka i robotyka.

Otwarty dostęp

Otwarty dostęp, możliwość dostępu do recenzowanych artykułów naukowych (opublikowanych w czasopismach naukowych i repozytoriach) oraz danych badawczych (związanych z publikacjami lub danych surowych), on-line, bezpłatnie dla czytelnika. Otwarty dostęp na ogół dotyczy decyzji po publikacji; nie oznacza obowiązku publikowania wyników badań.

Otwarty dostęp:

– zwiększa poziom cytowań publikacji;

– redukuje dublowanie kosztów gromadzenia, tworzenia, przekazywania i ponownego użytku danych i tekstów naukowych;

– pozwala prowadzić inne badania na podstawie tych samych danych;

– umożliwia testowanie ustaleń badawczych;

– zwiększa możliwości udziału w badaniach;

– pobudza interdyscyplinarność badań;

– umożliwia przepływ wiedzy poza samą naukę, do gospodarki i społeczeństwa, stwarza szanse budowy nowych produktów i usług (zaledwie 25% użytkowników PubMed Central pochodzi z uniwersytetów, aż 17% z firm, 40% to indywidualni obywatele, administracja rządowa i inne kategorie).

Otwarty dostęp wspierają organizacje międzynarodowe, takie jak UE, OECD, UNESCO, Bank Światowy, International Council for Science; otwarty dostęp do danych – Committee on Data for Science and Technology (CODATA), Research Data Alliance (RDA), EMBL-EBI, CERN. Horyzont 2020 zawiera pilotażowy projekt dotyczący otwartych danych.

Otwarte dane to postulat i praktyki udostępniania danych (np. obserwacje astronomiczne, pomiary meteorologiczne, dane kartograficzne, statystyka demograficzna i gospodarcza, dane medyczne, odpowiedzi ankietowe) bez ograniczeń technicznych i prawnych (prawa autorskie, patenty).

Otwieranie danych narzuca wiele problemów, takich jak: jakość danych, ochrona własności intelektualnej, ujmowanie danych w kategorie i klasyfikowanie ich, metadane, normy cytowania danych (organizacje DataCite i ORCID), czasopisma danych i artykułów o danych (data journals i data papers te ostatnie to artykuły, których głównym celem jest nie tyle analiza, ile opis danych), infrastruktura (repozytoria, bazy danych, archiwa, biblioteki cyfrowe, oraz platformy zawierające informacje o projektach B+R oraz CV badaczy).

Nauka obywatelska

Otwarta nauka i otwarte dane mają potencjał umocnienia powiązań między środowiskiem naukowym i społecznym. Krajobraz komunikacji naukowej został zmieniony, a naukowcy mają teraz szerszy zakres form komunikacji z obywatelami (np. sieci społeczne, osobiste blogi naukowe, filmy, dyskusje). Te nowe mechanizmy komunikacji naukowej mogą pomóc w budowaniu zaufania publicznego do nauki. Ponadto, w miarę jak nauka jest zarządzana w bardziej otwarty i przejrzysty sposób, mogą one także umożliwić obywatelom lepszą kontrolę nad jej rozwojem.

Współpraca w badaniach opartych na danych coraz częściej angażuje obywateli i „badaczy amatorów” na różnych etapach procesów naukowych, od zbierania danych do rozwiązywania złożonych problemów badawczych. Zaangażowanie nieprofesjonalnych środowisk naukowych w nauce i badaniach działań często określa się jako „nauka obywatelska”.

Nauka obywatelska to badania naukowe, w których wolontariusze współpracują z badaczami zawodowymi, a także (szczególnie od lat 1990.) forma edukacji naukowej, forma współpracy w badaniach naukowych oraz ruch społeczny. Nauka obywatelska służy osiągnięciu kilku różnych celów. Angażując zarówno amatorów, jak i profesjonalistów, rozwija ona bardziej demokratyczne środowisko naukowe, a ponadto ma także wartość edukacyjną. Obywatele coraz częściej chcą być bezpośrednio włączani do badań, nie tylko jako obserwatorzy lub zbieracze danych, lecz także jako praktycy, projektanci i eksperci. Brytyjski interdyscyplinarny projekt „Amatorzy jako Eksperci”, włączający wolontariuszy do współpracy z socjologami, antropologami, przyrodnikami oraz decydentami, miał zarówno cele poznawcze, jak i edukacyjne, społeczne i polityczne (opracowanie skutecznych strategii ochrony różnorodności biologicznej).

Udział społeczeństwa w badaniach skłaniał nawet decydentów do wyboru priorytetów badawczych lub do cofania wcześniej podjętych decyzji. Brytyjska Agencja Środowiska odwołała licencję na budowę złomowiska, gdy zebrane przez obywateli dane na temat poziomów hałasu dowiodły, że naruszy ono limity hałasu.

Jedną z form nauki obywatelskiej jest crowdsourcing poprzez platformy on-line. Jako przykład można przytoczyć Kaggle, platformę internetową modelowania i analizy predykcyjnej. Firmy i zespoły badawcze publikują na Kaggle nierozwiązane problemy dotyczące poszczególnych zbiorów danych, a naukowcy konkurują, aby znaleźć najlepsze algorytmy. Autorzy najlepszego rozwiązania otrzymują nagrodę pieniężną, anonsowaną przez zleceniodawcę. Szacuje się, że Kaggle skupia około 200 tys. badaczy danych z całego świata.

Zadania dla polityki

Aby utrzymać ten rozwój, nauka wymaga dalszych inwestycji w infrastrukturę, zarówno twardą, jak i miękką (umiejętności).

Nadejście nowej epoki odkryć narzuca nowe problemy polityce naukowej, takie jak m.in. kształcenie w dziedzinie repozytoriów danych, zapewnienie zgodności z międzynarodowymi normami w zakresie ochrony danych, ustalenie protokołów i metadanych wspólnego składowania, zabezpieczenie integralności danych, ustanowienie zasad dotyczących różnych poziomów dostępu, poprawa interoperacyjności.

W wielu krajach podjęto działania na rzecz infrastruktury dla otwartej nauki. Argentyna wdrożyła SICyTAR (Sistema de Información de Ciencia y Tecnología Argentino), bazę danych zawierającą informacje o CV, publikacjach i powiązaniach badaczy. Inne kraje stworzyły krajowe sieci repozytoriów i bibliotek cyfrowych. Finlandia uruchomiła plan działania w zakresie infrastruktury w celu promowania otwartej nauki. Australia rozwija infrastrukturę eResearch do magazynowania danych, udostępniania, analiz, modelowania i przetwarzania. Nowozelandzki program Usługi Informacji Naukowych Kiwi mieści w sobie zbiór publicznie dostępnych prac naukowych i związanych z nimi materiałów, takich jak zbiory danych, źródła, materiały konferencyjne i doktoraty. We Francji rozwinięto National Hyper Articles Online Platform (HAL). W Wielkiej Brytanii E-infrastructure Leadership Council (ELC) doradza rządowi w takich sprawach jak sieci, magazyny danych, komputery, oprogramowanie i umiejętności.

Otwarta nauka stała się przedmiotem inicjatyw rządowych, np.: Fińska Mapa Drogowa Otwartej Nauki, brytyjska Strategia Badawcza dla Wzrostu, w Ameryce działalność Office of Science and Technology Policy (OSTP) oraz Kierunki rozwoju otwartego dostępu MNiSW.

W wielu krajach powstają ośrodki szkoleniowe lub programy wyższego wykształcenia. M.in. w Polsce Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego na Uniwersytecie Warszawskim uruchomiło Repozytorium Otwartych Danych – RepOD, które nie tylko umożliwia dzielenie się danymi, na które nie ma obecnie repozytoriów dziedzinowych czy tematycznych, ale także jest ośrodkiem szkoleniowym. Szkolenia i kształcenie na poziomie wyższym szeroko rozwinięto w Wielkiej Brytanii, Stanach Zjednoczonych i Kanadzie.

Dr Jan Kozłowski, Departament Strategii Ministerstwa Nauki i Szkolnictwa Wyższego.