Humanistyka oparta na danych

czyli prawdziwy koniec Wilhelma Windelbanda. Projekt utopijny

Jan Kozłowski

Pomysł, który przedstawiam, to fragment szerszej całości, która nazywa się „infrastruktura badawcza dla humanistyki cyfrowej”. Pomysł dotyczy utworzenia platformy badawczej – baz relacyjnych (lub może lepiej bazy rozproszonej z indeksem dynamicznym), opartych na informatorach elektronicznych oraz papierowych, poddanych cyfryzacji. W badaniach historycznych platforma taka umożliwiłaby szersze stosowanie podejść badawczych opartych na analizie dużych zbiorów danych.

Pierwszym czytelnikom tekstu serdecznie dziękuję za nadesłane słowa zachęty i uwagi merytoryczne. W szczególności słowa podziękowania kieruję do prof.prof. Grzegorza i Wiesławy Osińskich z Torunia. Artykuł Osińskich Wizualizacja jako narzędzie badawcze historyka. W poszukiwaniu korzeni patrona 70-letniego Uniwersytetu , w którym rozważają, czy współczesna neuronauka w połączeniu z analizą dużych zbiorów danych za pomocą metod wizualizacyjnych pozwoli odkryć nowe fakty, był jedną z inspiracji tego tekstu.

Dziedzictwo Windelbanda

Wilhelm Windelband (1848-1915) definiował nauki przyrodnicze i humanistyczne przez ich wzajemne przeciwstawienie sobie. Według Windelbanda te pierwsze opisują przedmiot za pomocą ogólnych praw, te drugie – mając do czynienia z jednorazowym, indywidualnym i jednostkowym przedmiotem – nie szukają regularności, tylko opisują.

Definicja humanistyki Windelbanda była odbiciem jej ówczesnego stanu. Po śmierci filozofa, wraz z ewolucją przedmiotu humanistyki – zainteresowanie źródłami masowymi, stosowanie metod nauk społecznych (por. Krzysztof Pomian, L`ordre du temps , Gallimard 1984, tłum. pol. Porządek czasu , słowo/obraz/terytoria 2014) – stopniowo traciła ona adekwatność. Jednak dopiero epoka cyfrowa wrzuciła ją do lamusa.

„Humanistyka Windelbanda” pozostawiła po sobie ogromny dorobek, zawarty w książkach i czasopismach, na jego podstawie można budować humanistykę cyfrową. Jednak ten dorobek należy dopiero „odmrozić”. Jest to zadanie, które znacznie przekracza to, co robią nawet tak zaawansowane programy, jak Europeanea.

Jak wiadomo, przez pierwsze dekady rewolucja Gutenberga przetwarzała na formę druku rękopiśmienny dorobek antyku i średniowiecza. Dopiero później książki drukowanej użyto jako sposobu udostępniania nowych treści, z uwzględnieniem możliwości, jakie daje druk. Dziś zmiany zachodzą nieporównanie szybciej, gdyż Internet, w przeciwieństwie do druku, sam stwarza własny świat informacji, który ilościowo wielokrotnie przekracza zasoby epok rękopisu i druku. Jednak w odniesieniu do konwersji wcześniejszego dorobku, podobieństwo z wczesną epoką Gutenberga jest uderzające. Nie potrafimy tego dorobku tak przetworzyć, aby skorzystać z szans otwieranych przez nowe technologie.

Dziedzictwo Langlois i Seignobosa

Równolegle z poglądami o nauce Windelbanda (a także Rickerta i Cassirera) swoje idee o metodzie dziejopisarstwa rozwinęli Charles-Victor Langlois (1863–1929) oraz Charles Seignobos (1854–1942). W książce Introduction aux études historiques (1897, przekład polski Wstęp do badań historycznych , 1912) z dziejopisarstwa chcieli oni uczynić nauki równie ścisłe jak nauki przyrodnicze. Dziejopisarstwo – twierdzili – opiera się na faktach wydobytych z dokumentów pisanych najbliższych opisywanym wydarzeniom. „Nie ma dokumentów, nie ma historii”, pisali. Fakty dzieli się na kategorie, poddaje krytyce zewnętrznej i wewnętrznej oraz pokazuje z różnych perspektyw, dzięki czemu osiąga się możliwie największy obiektywizm.

Przekładany na różne języki, wznawiany i zalecany studentom do dziś, był Wstęp – podobnie jak poglądy Windelbanda – dzieckiem swojej epoki. Obecnie jest synonimem nie tylko solidności, ale także naiwności. Wstęp przykuł wiedzę, wybraźnię i odwagę historyka – te trzy cnoty kardynalne każdego badacza – do skały dokumentu. Nie pozwalając historykom na bujanie w obłokach fantazji, sparaliżował ich kreatywność. Wstęp nie dostrzegł, że rzeczywistość odbita w zachowanych dokumentach jest rzeczywistością skrzywioną. Nie tylko dlatego, że dokumenty pisane opisują świat wybiórczo i wyłącznie w ramach przyjętych konwencji, ale i dlatego, że mechanizm transmisji dokumentów poprzez dzieje powoduje, że pewne typy dokumentów mają większą szansę przetrwania od innych.

Wstęp ukierunkował historyków na opisywanie historii jako dokonanych wyborów, udokumentowanych w źródłach, przez co zgubił sens możliwych wyborów oraz wyborów nieudokumentowanych. A przecież dokonany wybór, podjęta decyzja, rozpoczęte działanie – są z reguły poprzedzone rozważeniem wyborów możliwych. Ponadto, na każdy udokumentowany fakt przypadają tysiące nieudokumentowanych. Wnioskowanie na podstawie poddanych surowej krytyce konkretnych dokumentów pisanych musi być zatem uzupełnione nie tylko przez wnikliwą analizę innych typów źródeł – historii mówionej, artefaktów, danych geologicznych itd. – lecz także przez wnioskowanie oparte na analizie dużych zbiorów danych. Analiza dużych zbiorów danych historycznych pozwala na stawianie pytań niemożliwych do wyobrażenia w tradycyjnej historiografii. Rozszerza ona widnokrąg historyka o nowe wymiary i przestrzenie. Historykowi, nachylonemu nad rękopisem z okularem w oku, daje nowe narzędzie, nawet do jego mikroanalizy.

Głównym źródłem takich danych są reference books, a jedną z metod ich analizy – wizualizacje.

Milczenie książek

Z punktu widzenia teleinformatyki, szczególną cechą książek jest fakt, że są zastygłe i „milczą”. Nie da się ich aktualizować ani łączyć z innymi książkami (chyba że przez nowe edycje lub zszycie ich razem). Książki ani nie „rozmawiają” same ze sobą, ani z innymi książkami (skromną formą rozmowy książki samej ze sobą są spisy treści i indeksy, a z innymi książkami – przypisy i odwołania). Ani też nie „rozmawiają” z czytelnikiem.

Najczęściej także reference books, takie jak słowniki językowe i biograficzne, katalogi, bibliografie i encyklopedie, nie rozmawiają same ze sobą. Również nie rozmawiają same ze sobą informacje w informatorach – są one, tak jak słowa w słownikach językowych, postawione na stałych pozycjach, najczęściej w porządku alfabetycznym. Słowa w dykcjonarzach są zamrożone, a przecież znaczenie każdego z nich zależy od (zmieniających się w czasie i przestrzeni społecznej) powiązań z innymi słowami oraz od blasku, jaki rzucają na nie metafory, do których nawiązują. Chcielibyśmy zobaczyć je w dynamicznej postaci wizualizacji sieciowej, ale forma druku na to nie pozwala.

Nic dziwnego, że humaniści, obcując na co dzień z tak zaaranżowanym światem wiedzy, rzadko rozmawiają ze sobą, a wraz z nimi rzadko rozmawiają ze sobą obszary badań. Gdy wrzuci się do Internetu dowolne nazwiska rozpoznawalnych badaczy, np. Maryla i Migonia, okaże się, że współwystępują oni tylko w bibliografiach i repozytoriach. Nie ma takiej platformy, na której Maryl i Migoń mogliby poznać się i rozmawiać. Epoka druku to także okres bezokiennych monad.

Milczenie książek zaprzecza podstawowej charakterystyce piśmiennictwa, jaką jest intertekstualność, oraz życia społecznego, jaką jest sieciowość.

Ponowne narodziny książek

Jak „odblokować” książki? Dotychczasowe próby były połowiczne. Pierwsze polegały na umieszczaniu w Internecie skanu (np. Bibliografia Estreichera), kolejne na umieszczaniu wersji OCR (np. Academica) oraz, na koniec, wersji hipertekstowej (np. Polski Słownik Biograficzny). Ale to dalece za mało. Książki, nawet w wersji hipertekstowej, utrzymały swoją tożsamość, tak jakby obawiano się dokonać ich „dekompozycji” i rearanżacji na zupełnie nowych zasadach.

Nic dziwnego, że nawet najbardziej obiecujące i zaawansowane technologicznie humanistyczne projekty badawcze, takie jak Mapping the Republic of Letters , poza efektowną estetyką wizualizacji, nie wniosły nic przełomowego do humanistyki.

Pomysł „rozhermetyzowania” tekstów dla wyłuskiwania z nich informacji w celu łączenia ich w nowe, dowolne związki nie jest nowy; to przecież istota pomysłów Paula Otleta (Promieniująca biblioteka , 1934) i Vannevara Busha (Memex , 1945). Słusznie podkreśla się, że to Internet pozwolił urzeczywistnić ich wizje.

Jednak sam Internet nie ma mocy stworzenia cyfrowej humanistyki. Co wobec tego należałby zrobić, aby stworzyć platformę do dokonywania odkryć w humanistyce? Rozhermetyzowane teksty staną się tylko „mare magnum” danych, w których każdy zatonie. Potrzeba zatem rodzaju magnesów, które – tak jak magnes opiłki – ułożą dane w nowe wzorce. Gdzie szukać takich magnesów? Najlepiej wśród koncepcji, które pozwalają na sensowne łączenie danych i organizowanie badań.

„Sieć”, „system” i „struktura”

„Sieć”, „system” i „struktura” to właśnie takie koncepcje. Przeszły one długą ewolucję, w trakcie której zaowocowały wieloma pomysłami badawczymi, a ostatnio zbliżyły się do siebie. Wszystkie mają ambicje, by służyć jako centralne kategorie badawcze nie tylko nauk społecznych, lecz także nauk w ogóle. Powstaje np. coraz więcej prac opisujących sieci uczonych XVII i XVIII wieku. Tyle że są one oparte na stosunkowo wąskiej bazie źródłowej, a zatem pozwalają na testowanie bardzo ograniczonej liczby pomysłów badawczych. Mają one charakter „historii anegdotycznej”, „studiów przypadku” (np. o sieci rywalizujących i współpracujących ze sobą fizyków XVII w.). Mimo że są pełne świetnych indywidualnych opowieści, nie dają tego, co mogą dać szersze badania oparte na większej ilości danych – wiedzy o sieciach, systemach i strukturach. Wiedzy o ukrytych zależnościach, możliwych do odkrycia wtedy, gdy pracuje się na dużych zbiorach danych.

W trakcie ewolucji sieć stopniowo rozszerzała swoje znaczenia. Najważniejsze były przejścia: 1) od pojęcia sieci ujmowanej statystycznie, ogniwa i ich powiązania w danej chwili, do sieci dynamicznej, zmieniającej się w miarę narastania lub ubywania nowych ogniw i powiązań; 2) od sieci dynamicznej, uczącej się pod wpływem bodźca zewnętrznego, do sieci samoorganizującej się (SOM), struktury dynamicznej, która niejako rozmawia sama z sobą, zmieniając jednocześnie swoją strukturę. Pierwsze próby zastosowania SOM dotyczyły pojedynczych słów i wyrażeń; czyni się próby budowy dynamicznych, nieliniowych, systemów semantycznych, takich jak dynamiczne modele samoorganizacji Włodzisława Ducha (Za tę informację dziękuję prof. Grzegorzowi Osińskiemu); 3) od sieci jednopoziomowej, składającej się z ogniw tego samego rodzaju (np. osób lub słów), do sieci wielopoziomowej, złożonej z ogniw różnych kategorii (np. osób i miejscowości).

Zmieniało się także pojęcie struktury. W naukach społecznych (Giddens, Bourdieu, Latour) przesunięto akcenty struktury, od struktury jako substancji do struktury jako procesu, od struktury jako rzeczy danej do struktury jako rzeczy stwarzanej i od struktury jako determinanty działań do struktury jako rezultatu działań.

Struktura to pojęcie wieloznaczne. Najczęściej rozumie się przez nie zjawiska o względnej trwałości – gospodarcze, techniczne, społeczne, polityczne lub kulturalne – narzucające ograniczenia zjawiskom o charakterze koniunktur. (Rodzaj techniki rolnej ogranicza zasoby dostępnej żywności, a przez to i limituje wzrost ludności itd.) Przedmiotem zainteresowania są szczególnie: zmiany wewnątrz struktur i zmiany samych struktur – mutacje pozwalające przekroczyć istniejące bariery (w historii nauki – paradygmaty T. Kuhna); punkt początkowy i ciąg repetycji (w historii sztuki – teoria G. Kublera); współzależności między strukturami (w synchronii) oraz współzależności między koniunkturami i rewolucjami (w diachronii); współistnienie ze sobą struktur o różnych „czasach wewnętrznych”.

Podobnie ewolucję przeszło pojęcie systemu. Nie tylko zwiększało ono zakres swoich zastosowań (cybernetyka, biologia, inżynieria, psychologia, antropologia, archeologia, historia, ekonomia, nauki polityczne), lecz także, z upływem czasu, pogłębiano znajomość jego szczególnych cech, takich jak złożoność i adaptacyjność (uczenie się).

Te wszystkie zmiany uczyniły z tych pojęć kluczowe narzędzia badawcze w naukach społecznych i humanistyce, możliwe do stosowania wobec dużych ilości danych.

Infrastruktura badawcza humanistyki cyfrowej

Pomysł, który przedstawiam, polega na stworzeniu uniwersalnej platformy umieszczania i organizacji danych historycznych. Zostałby on zrealizowany dzięki równoległej budowie – w ramach projektu europejskiego – wielu sieciowych, połączonych ze sobą systemów danych, uporządkowanych pod względem czasu, przestrzeni i tematów, takich jak osoby, zbiory (biblioteki, archiwa i kolekcje), korespondencje, instytucje (uczelnie, akademie, towarzystwa naukowe, salony…), teksty pisane (książki, czasopisma, rękopisy), gatunki piśmiennicze, idee, obiekty materialne i wiele innych. Źródłem danych byłby zarówno dorobek „humanistyki Windelbanda”, jak i nowej humanistyki cyfrowej. Dane zostaną sklasyfikowane w ramach pewnych kategorii; każda kategoria danych stanie się osią odrębnej bazy.

Krótko można by ideę projektu przedstawić tak: budujemy bazę danych jednostek tej samej kategorii – niech to będą uczeni europejscy XVI-XVIII wieku. Każda jednostka otrzymuje swój „biogram” – uporządkowany zestaw informacji. Każda informacja, która odnosi się albo do innej jednostki tej samej kategorii (do innego uczonego), albo do jednostki innej kategorii (biblioteki, instytucji naukowej, publikacji itd.) zostanie podkreślona. Jednocześnie utworzy się link łączący dwa opisy: jednostki, którą opisujemy, oraz jednostki, z którą była ona powiązana.

Niech opisywany przez nas uczony nazywa się Johann Christian Schott. Miejscowości z życia Schotta – miejsce urodzenia, studiów, podróży, pracy i śmierci – zostaną połączone z bazą geograficzną. Biogramy uczonych, pod kierunkiem których studiował, z którymi współpracował lub których uczył, zostaną połączone z biogramem Schotta. Uczelnie, na których studiował, dwory, na których służył, biblioteki, które prowadził, książki, które napisał itd. także zostaną olinkowane. Podobnie idee, które głosił (np. wolfianizm). Również i korespondencja Schotta oraz książki, które w listach recenzuje, zostaną połączone linkiem.

Wszechsieciowość jest naturą świata. Można ją oddać tylko pokazując powiązania istniejące wewnątrz reprezentacji opisywanych jednostek, takich jak np. biogramy, opisy bibliograficzne książek, koncepcje, charakterystyki obiektów w katalogach zabytków i wiele innych.

Przedstawiane przeze mnie idee nie są nowe, a jeśli – jak się zdaje – nie zostały jeszcze przedstawione w całości, to ze względu na ich radykalizm i przewidywaną trudność ich realizacji.

Między innymi zastąpienie artykułów w czasopismach korespondencją naukową jako podstawę opisu sieci badawczych proponował francuski badacz Yves Gingras (Mapping the structure of intelelctual field using citation and co-citation analysis of correspondences , 2010). W XVII wieku czasopisma dopiero raczkowały, brakowało standardów powołań i cytowań. Znacznie lepszym źródłem wiedzy o popularności publikowanych tekstów oraz o strukturze pól badań, pisze Gingras, jest lektura ówczesnej korespondencji uczonych.

Nie od razu Kraków zbudowano

Oczywiście „nie od razu Kraków zbudowano”. Tak postulowaną platformę należy budować krok po kroku. Gdy tylko można, trzeba ją oprzeć na wspomnianych – „rozhermetyzowanych” – papierowych lub cyfrowych informatorach, słownikach bio-bibliograficznych, katalogach, leksykonach i encyklopediach. Takich, jak np. WorldCat OCLC, World Biographical Index Online wydawnictwa De Gruyter czy też A world bibliography of bibliographies and of bibliographical catalogues, calendars, abstracts, digests, indexes and the like Theodore’a Bestermana.

Zacznijmy zatem od pewnej wyodrębnionej grupy wewnątrz wybranej kategorii. Niech to będą biolodzy XVIII wieku. Nie było ich tylu, co dziś, tworzyli znacznie mniejszy odsetek ówczesnego – niewielkiego w porównaniu z dzisiejszymi czasami – środowiska naukowego. Są policzalni i opisani, np. w Historical catalogue of scientists and scientific books from the earliest times to the close of the 19th Century (1984) Roberta Mortimera Gascoigne’a. Fakty z życia biologów opisano w słownikach biograficznych. Rozpisując kolejne biogramy, wyłuskujemy z nich – automatycznie, tak dalece, jak się da – informacje pasujące do przyjętych przez nas kategorii.

Budujemy zatem bazę (powiązanych ze sobą) biogramów (Rys. 1). A jednocześnie tworzymy kolejne, powiązane ze sobą bazy (np. Rys. 2).

Formuła technologiczna baz – bazy relacyjne czy może lepiej baza rozproszona, ale z indeksem dynamicznym – to zagadnienie dla właściwie zaangażowanych technonauk (Za tę propozycję dziękuję prof. Grzegorzowi Osińskiemu).

Baza (bazy) powinna być spięta ze zbiorami danych warsztatowych (Rys. 3).

Budowa platformy powinna postępować równolegle z badaniami pilotażowymi – zarówno testowaniem tez powstałych w różnych polach badawczych, takich jak studia nad sieciami, badania systemowe, systemy innowacji, bibliometria, historia i geografia nauki, jak i – to najważniejsza wartość platformy – odkrywaniem zupełnie nowych ustaleń i regularności.

Platforma nie powstanie bez współpracy historyków („przymiotnikowych” i „bezprzymiotnikowych”), geografów historycznych, informatyków, bibliometrów, a także statystyków i fizyków (ci ostatni stanowią największą grupę badaczy sieci). Konsorcjum DARIAH byłoby jego najlepszym adresatem. To heroiczne zadanie dla DARIAH, ale może sensowne, jeśli konsorcjum nie ma się stać jedynie pojemnikiem na wiele różnych, niepowiązanych ze sobą, małych projektów.

Dr Jan Kozłowski, Departament Strategii Ministerstwa Nauki i Szkolnictwa Wyższego.

Plik do pobrania: Uwagi czytelników