DARIAH – cyfrowe zaplecze europejskiej humanistyki

Aneta Daszuta, Dominik Purchała

Kiedy pod koniec lat 40. Roberto Busa przygotowywał we współpracy z IBM przetworzony komputerowo korpus dzieł św. Tomasza, nic nie zapowiadało, że wykorzystanie komputerów w badaniach humanistycznych stanie się tak proste. Dla Busy infrastruktura była kluczowa – dzięki firmie IBM mógł pracować na nowoczesnych komputerach klasy mainframe, zajmujących wiele miejsca szafach, pracujących na danych dostarczanych na kartach performowanych. Dziś zadania badawcze, które realizował Busa, można przeprowadzać korzystając z przeglądarki internetowej. Nie oznacza to jednak, że infrastruktura badawcza przestała być problemem. To, co dla Busy było wyzwaniem, dziś stało się standardem, ale pojawiły się nowe problemy ze skalą wykorzystywanych danych, ich przechowywaniem i możliwościami analizy. Rozwiązania i narzędzia cyfrowe, chociaż coraz powszechniejsze i dostępne, są jednak często zbyt zaawansowane i skomplikowane, a przede wszystkim zbyt kosztowne, aby mogły być w pełni utrzymywane przez pojedynczych badaczy lub małe zespoły. Dla nauk humanistycznych i nauk o sztuce nowe możliwości technologiczne dają nie tylko impuls do refleksji, ale też szansę na rozwój w nieuwzględnionych wcześniej kierunkach.

Nowe wyzwania dla humanistyki

Od dwóch dekad coraz więcej się mówi o „humanistyce cyfrowej”. To kierunek, w ramach którego – najogólniej mówiąc – rozwijane są metody i narzędzia cyfrowe na potrzeby badań humanistycznych. Jego zasadniczym celem jest wsparcie tradycyjnych metod badań nowymi możliwościami oraz umożliwienie badań humanistycznych nowych rodzajów źródeł (np. tych, które dostępne są w olbrzymich ilościach lub posiadają wyłącznie postać cyfrową). Niemałą uwagę zwraca się w ramach cyfrowej humanistyki na wolność korzystania z danych badawczych, dostępność narzędzi i dokumentacji metod oraz nowe sposoby prezentacji wyników badań i ich popularyzację.

Działalność na niezagospodarowanym wcześniej obszarze naukowym wiąże się z wieloma wyzwaniami – nie tylko merytorycznymi, ale też technicznymi. W tym przypadku kluczowe okazują się kwestie infrastrukturalne, z którymi humaniści nie musieli się mierzyć nigdy wcześniej. Potencjał cyfrowej humanistyki uwarunkowany jest m.in. masową digitalizacją zasobów kultury i jakością tej digitalizacji, powstawaniem nowych zasobów wyłącznie w postaci cyfrowej czy rozwojem informatyki, która umożliwia nowe sposoby prowadzenia badań. Coraz łatwiej korzystać z zaawansowanych technologii cyfrowych, ale stwarza to zagrożenia związane z jakością udostępnianych zasobów i usług oraz poprawnością metod badawczych. Pojawiają się nowe możliwości wymiany wiedzy, umiejętności i praktyk badawczych, ale zarazem konieczne jest wypracowanie nowych metod dostępu do nich i wymiany doświadczeń. Globalny i masowy charakter przedsięwzięć z zakresu cyfrowej humanistyki zwiększa ich widoczność w skali międzynarodowej, ale wymaga też zachowania standardów przechowywania i przekazywania danych, które pozwolą korzystać z nich w każdym miejscu na świecie. Tymczasem poszczególni naukowcy, zespoły badawcze, a nawet instytucje nie są przygotowane do nowej sytuacji, choć jednocześnie rośnie potrzeba korzystania z technologii cyfrowych w codziennej pracy naukowej na każdym szczeblu.

W obliczu tych nowych wyzwań konieczne staje się zapewnienie rozwiązań infrastrukturalnych na ogólnym poziomie. Punktem wyjścia dla nich muszą być zawsze konkretne potrzeby indywidualnych naukowców i zespołów badawczych, ale budowa i rozwój infrastruktury powinny mieć charakter systematyczny. Z raz wypracowanych narzędzi i usług można korzystać wielokrotnie, co z kolei pozwala na ich dalszy rozwój i doskonalenie. W takim modelu można nie tylko ograniczyć koszty związane z infrastrukturalnymi aspektami realizowanych projektów, lecz także wprowadzić standardy umożliwiające optymalne wykorzystanie istniejących zasobów. DARIAH – zarówno na poziomie europejskim, jak i krajowym – stara się tworzyć i udostępniać humanistom cyfrowe narzędzia, które pozwolą szybciej odpowiedzieć na dotychczasowe pytania badawcze i sformułować nowe problemy. Dąży zarazem do zapewnienia optymalnych warunków do ponownego wykorzystywania opracowanych już narzędzi oraz ich długoterminowego utrzymywania.

DARIAH w Europie

Na poziomie europejskim DARIAH od roku 2014 działa jako konsorcjum na rzecz europejskiej infrastruktury badawczej (European Research Infrastructure Consortium, ERIC). Jego członkami jest obecnie 17 państw: Austria, Belgia, Chorwacja, Cypr, Dania, Francja, Niemcy, Grecja, Irlandia, Włochy, Luksemburg, Malta, Holandia, Polska, Portugalia, Serbia i Słowenia. Od strony merytorycznej struktura DARIAH opiera się na sieci grup roboczych oraz czterech Wirtualnych Centrach Kompetencji (Virtual Competence Centres, VCCs), które zapewniają eksperckie wsparcie w najistotniejszych dla powodzenia prac tych grup obszarach: e-infrastruktury, badań i edukacji, zarządzania treściami naukowymi oraz promocji i komunikacji.

Strukturę DARIAH współtworzą również eksperckie ciała i organy zgodnie z procedurami i praktykami europejskich infrastruktur badawczych ERIC. Jedno z nich to Scientific Advisory Board – ciało doradcze dla władz konsorcjum, kompetentne w planowaniu ukierunkowania badawczego i innowacji technologicznych. Jego członkami są uznani na świecie naukowcy zajmujący się sztuką i naukami humanistycznymi, mający zarazem znaczące doświadczenie w metodach badawczych wykorzystujących techniki cyfrowe. National Coordinator Committee gromadzi krajowych koordynatorów wszystkich państw członkowskich DARIAH, którzy nadzorują lokalne działania DARIAH w imieniu swojego krajowego konsorcjum członkowskiego. NCC spotyka się regularnie, aby zintegrować te krajowe działania DARIAH na poziomie europejskim. Kluczową rolę dla sprawnego funkcjonowania infrastruktury DARIAH odgrywa również Joint Research Committee, komitet synchronizujący ukierunkowanie technologiczne i innowacje badawcze w ramach działalności sieci.

DARIAH w Polsce

Historia polskiego konsorcjum również sięga początków 2014 roku. Ramy organizacyjne zyskało ono w sierpniu 2014 roku, kiedy to wspólną umowę podpisało 13 instytucji, tworząc konsorcjum DARIAH-PL. W kolejnych latach do konsorcjum przyłączyło się pięciu kolejnych partnerów. W listopadzie 2015 roku decyzją rządu Polska wstąpiła do DARIAH ERIC. Konsorcjum DARIAH-PL stanowi największe, obok niemieckiego, krajowe porozumienie DARIAH w DARIAH-EU.

Konsorcjum DARIAH-PL to zarazem największe humanistyczne konsorcjum w Polsce, tworzone przez osiemnaście instytucji, w tym wiodące uniwersytety i czołowe instytuty Polskiej Akademii Nauk (http://dariah.pl/o-konsorcjum/sklad/). Jego koordynatorem jest Uniwersytet Warszawski, który wraz z Uniwersytetem Jagiellońskim, Uniwersytetem im. Adama Mickiewicza, Uniwersytetem Wrocławskim i Uniwersytetem Mikołaja Kopernika, również członkami konsorcjum, stanowią pięć najlepszych polskich uniwersytetów (według rankingu szkół wyższych Fundacji Edukacyjnej „Perspektywy”). Siłę konsorcjum gwarantują natomiast partnerzy infrastrukturalni, tacy jak Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego UW (ICM UW), Poznańskie Centrum Superkomputerowo-Sieciowe (PCSS), Politechnika Wrocławska czy Instytut Podstaw Informatyki PAN.

Od strony praktycznej DARIAH-PL stanowi krajową część europejskiej infrastruktury badawczej DARIAH ERIC. Jej aktywność obejmuje szerokie spektrum działań zróżnicowanych pod względem dziedzin nauki, stosowanych metod i rodzajów danych. Tematy i zagadnienia najczęściej interesujące badaczy zrzeszonych w DARIAH to teksty, obrazy tekstu (skany), obrazy cyfrowe (skanowane i syntetyzowane), obrazy trójwymiarowe, skany przestrzeni, obrazy wektorowe (rysunki) statyczne i dynamiczne, wideo, nagrania mowy i dźwięku, zapisy muzyki oraz różnorodne formaty metadanych. Duże zróżnicowanie tematów i perspektyw badawczych powoduje, że DARIAH-PL, w odróżnieniu od DARIAH ERIC, ma charakter infrastruktury rozproszonej. Jej budowanie polega zatem na łączeniu z jednej strony narzędzi, systemów i repozytoriów, z drugiej laboratoriów, centrów wiedzy i grup badawczych wyspecjalizowanych w ramach poszczególnych dziedzin, rodzajów danych, a nawet technik badawczych. Takie ujęcie wpływa też na organizację polskiego konsorcjum. Naczelnym organem decyzyjnym jest Rada Konsorcjum DARIAH-PL. Na jej czele stoi przedstawiciel koordynatora – przewodniczący rady prof. Aleksander Bursche (Wydział Historyczny UW), a jego zastępcą jest dr Cezary Mazurek (PCSS). Organizacyjnie konsorcjum jest wspierane przez Zespół UW ds. DARIAH, który pomiędzy posiedzeniami rady tworzy Biuro Konsorcjum i pomaga w formalnym administrowaniu i realizowaniu postanowień rady.

Główna działalność DARIAH-PL odbywa się jednak poprzez grupy robocze, które skupiają się na realizowaniu prac badawczych i wyspecjalizowanych projektów infrastrukturalnych w zakresie swoich możliwości i kompetencji. Aktualnie aktywnych jest dwanaście grup roboczych, zajmujących się szerokim zakresem badań, od budowania cyfrowych edycji tekstów po wizualizacje i opracowanie cyfrowe zabytków czy krajobrazów historycznych. Zainteresowania badaczy skupionych w grupach roboczych rozpościerają się od archeologii, przez badania korpusowe i lingwistyczne, po pozyskiwanie i analizę informacji muzycznej. Warto podkreślić, że konstrukcja konsorcjum zakłada w ramach grup roboczych współpracę badaczy oraz instytucji, które nie należą bezpośrednio do konsorcjum. Dzięki temu w ramach DARIAH-PL współpracują takie polskie instytucje jak: Uniwersytet Łódzki, Uniwersytet Opolski, Instytut Filozofii i Socjologii PAN, Uniwersytet w Białymstoku, Uniwersytet im. Jana Kochanowskiego w Kielcach, Instytut Teatralny im. Zbigniewa Raszewskiego, Centrum Sztuki Współczesnej, Ośrodek Brama Grodzka – Teatr NN, Instytut Archeologii i Etnologii PAN, Uniwersytet Rolniczy w Krakowie, Katolicki Uniwersytet Lubelski Jana Pawła II, Collegium Civitas, Uniwersytet Pedagogiczny w Krakowie, Uniwersytet Przyrodniczo-Humanistyczny w Siedlcach, Politechnika Poznańska, Uniwersytet Warmińsko-Mazurski w Olsztynie, Uniwersytet Kazimierza Wielkiego czy Zakład Narodowy im. Ossolińskich oraz następujące instytucje zagraniczne: Instytut Języka Czeskiego ANCzR w Pradze, Instytut Języka Ukraińskiego NANU w Kijowie, Instytut Słowianoznawstwa RAN w Moskwie, Uniwersytet im. M.W. Łomonosowa w Moskwie, Centrum Badań nad Kulturą, Literaturą i Językiem NANB w Mińsku, Uniwersytet w Zagrzebiu, Uniwersytet w Mariborze, Hankuk University of Foreign Studies, Mittuniversitet Hornesund, University of California Berkeley, The Universita degli studi Internazionali di Roma, University of Amsterdam, Universität Hamburg, Wirtschaftsuniversität Wien.

Tak szeroka reprezentacja polskich i zagranicznych instytucji tworzy wyjątkowe możliwości wymiany wiedzy, umiejętności i wypracowywania dobrych praktyk. Dzięki temu DARIAH-PL zbiera też informacje o najistotniejszych potrzebach infrastrukturalnych w środowisku polskich badaczy. Dostęp do infrastruktury DARIAH-PL może realizować dwoma głównymi kanałami: umożliwiając dostęp do sieci europejskiej oraz wypracowując własną, ogólnie dostępną infrastrukturę badawczą w Polsce. Obecnie głównym celem, nad którym pracuje konsorcjum w porozumieniu z Ministerstwem Nauki i Szkolnictwa Wyższego, jest polepszenie dostępu do danych badawczych oraz narzędzi i usług cyfrowych poprzez przystosowanie polskiej infrastruktury naukowej do infrastruktury europejskiej. Prace te powinny się przełożyć na lepszą widoczność badań krajowych na poziomie europejskim, zwiększyć możliwości współpracy międzynarodowej oraz w dalszej perspektywie umożliwić w dużo większym i kompleksowym stopniu utrzymanie efektów projektów z zakresu szeroko rozumianej humanistyki cyfrowej.

Doroczne spotkania DARIAH

Społeczność DARIAH – czyli instytucje z krajów członkowskich, zespoły badawcze, szerokie grono naukowców z grup roboczych lub spoza nich oraz wszyscy zainteresowani – raz do roku ma okazję uczestniczyć w otwartej konferencji DARIAH Annual Event. W roku 2019 wydarzenie to zorganizowane było we współpracy z DARIAH-PL i odbyło się w Warszawie w dniach 15-17 maja. Tematem tegorocznego spotkania były „Dane w humanistyce”. Uczestnicy koncentrowali się na zagadnieniach typu i ilości danych gromadzonych w humanistyce: z jakim rodzajem danych mamy do czynienia? Gdzie się one znajdują? Do kogo należą? Czy nasze dane są rzeczywiście tak bardzo skomplikowane? Jeżeli tak, to z czego to wynika? W jaki sposób definicje i konceptualizacje terminu „dane” odpowiadają naszemu dotychczasowemu rozumieniu źródeł w humanistyce i naukach o sztuce, a może raczej oddalają nas od niego? Bogaty program spotkań konferencyjnych obejmował również warsztaty specjalistyczne i wykłady panelowe dwojga wybitnych badaczy kultury cyfrowej, Sally Wyatt (Maastricht University) i Lva Manovicha (City University of New York).

Aneta Daszuta , Dominik Purchała , Zespół UW ds. DARIAH

Obecnie w skład konsorcjum DARIAH-PL wchodzi 18 wiodących w zakresie humanistyki cyfrowej instytucji naukowych: 

Uniwersytet Warszawski (koordynator)

Akademia Sztuk Pięknych w Warszawie

Biblioteka Narodowa

Instytut Badań Literackich Polskiej Akademii Nauk

Instytut Chemii Bioorganicznej Polskiej Akademii Nauk – Poznańskie Centrum Superkomputerowo-Sieciowe

Instytut Historii Polskiej Akademii Nauk im. Tadeusza Manteuffla

Instytut Języka Polskiego Polskiej Akademii Nauk

Instytut Podstaw Informatyki Polskiej Akademii Nauk

Instytut Slawistyki Polskiej Akademii Nauk

Instytut Sztuki Polskiej Akademii Nauk

Politechnika Wrocławska

Uniwersytet im. Adama Mickiewicza

Uniwersytet Jagielloński

Uniwersytet Marii Curie-Skłodowskiej

Uniwersytet Mikołaja Kopernika

Uniwersytet Pedagogiczny im. Komisji Edukacji Narodowej w Krakowie

Uniwersytet Śląski

Uniwersytet Wrocławski

Grupy robocze działające w ramach konsorcjum DARIAH-PL:

Cyfrowa lingwistyka stosowana i translatoryka

Celem grupy roboczej jest zgromadzenie zasobów i stworzenie infrastruktury na potrzeby interdyscyplinarnych badań nad komunikacją międzykulturową i multimodalną w dziedzinie przekładoznawstwa (translatoryki), glottodydaktyki, analizy dyskursu i analizy konwersacyjnej oraz zarządzania wiedzą specjalistyczną.

 

Daria – cyfrowe archiwa kobiet

Celem grupy roboczej jest zbudowanie i rozwijanie infrastruktury internetowej umożliwiającej gromadzenie, katalogowanie i wyszukiwanie materiałów dotyczących historii kobiet na całym świecie.

 

Digitalizacja, wizualizacja i cyfrowe udostępnianie zabytków

Głównym zadaniem grupy roboczej jest stworzenie kompleksowego systemu repozytoryjnego umożliwiającego przechowywanie całościowej dokumentacji archeologicznej zabytków – zarówno pojedynczych znalezisk, jak i budowli czy stanowisk archeologicznych.

 

Filologia Cyfrowa

Celem grupy jest rozwój narzędzi i metod wspierających prowadzenie ilościowych badań literackich na podstawie samych utworów oraz różnorodnych danych. Zakłada się wykorzystywanie metod statystycznych do ilościowej analizy tekstów w duchu distant reading .

 

Indika – cyfryzacja procesu tłumaczenia, redakcji, publikacji i analizy tekstów

Indika jest grupą roboczą poświęconą cyfryzacji procesu tłumaczenia, analizy, redakcji i publikacji tekstów sanskryckich. Celem grupy jest stworzenie systemu ułatwiającego szeroko rozumianą pracę nad tekstem.

 

Infolingwistyka cyfrowa

Celem grupy roboczej jest rozwój i efektywne wykorzystanie zintegrowanej krajowej i europejskiej przestrzeni badawczej, obejmującej infrastrukturę badawczą na potrzeby badań naukowych z zakresu europejskiego językoznawstwa slawistycznego, językoznawstwa kontrastywnego słowiańsko-niesłowiańskiego i dyscyplin pokrewnych.

 

Korpusy językowe i narzędzia korpusowe dla polszczyzny

Celem grupy jest rozwój i poszerzenie formuły korpusu narodowego oraz opracowanie standardów reprezentacji danych i narzędzi korpusowych.

 

Metody i narzędzia lingwistycznej analizy tekstu

Celem grupy jest rozwój elektronicznych narzędzi językowych do języka polskiego.

 

Music Information Retrieval / Pozyskiwanie informacji w muzyce

Celem prac grupy jest rozwój narzędzi i zastosowań technologii pozyskiwania i analizy informacji muzycznej do szeroko zakrojonych badań interdyscyplinarnych w zakresie muzykologii.

 

Narzędzia do analizy i wizualizacji obrazów cyfrowych

Celem grupy jest tworzenie narzędzi do badania filmów, gier, zdjęć, grafiki i innych nośników informacji kulturowej w postaci cyfrowej.

 

Wizualizacja informacji w nauce

Grupa tworzy i rozwija infrastrukturę użytkowo-badawczą w celu tworzenia systematycznych wizualnych prezentacji zasobów naukowych i akademickich na tle struktur społecznych w Polsce i na świecie.

 

Zasoby cyfrowe i narzędzia badań tekstów medialnych, użytkowych i politycznych

Celem grupy jest koordynacja i konsolidacja działań ośrodków oraz badaczy zainteresowanych gromadzeniem, automatycznym opracowaniem i udostępnianiem zasobów cyfrowych obejmujących „nieliterackie” obszary piśmiennictwa.