Czy naukowcy działają w interesie publicznym?

Roman Kaliszan

Nauka (science ) jest ważną, szczególnie od czasów Izaaka Newtona i Gottfrieda Wilhelma Leibniza, dziedziną ludzkiego poznania, które może się przełożyć na użytkowość. Uprawianie nauki winno podlegać wszelkim wymogom metody naukowej, w odróżnieniu od pozyskiwania systematycznej wiedzy nienaukowej (nonscience , jak metafizyka, religia, sztuka, odczucia i przeżycia, doświadczenia życiowe itd.). Podejście naukowe odróżnia się od podejścia antynaukowego (unscience ), a zwłaszcza pseudonaukowego (pseudoscience , np. astrologia, homeopatia, różdżkarstwo, jasnowidztwo, a nawet psychologia freudowska).

W idealistycznym ujęciu zadaniem nauki jest poszukiwanie prawdy. Jak podaje prof. Franciszek Ziejka, papież Jan Paweł II na spotkaniu z rektorami akademickich szkół polskich w Kolegiacie Św. Anny w Krakowie w 1997 r. powiedział: „Człowiek prawdy nie tworzy, ale ona sama się przed nim odsłania, gdy jej wytrwale szuka. Poznanie prawdy rodzi jedyną w swym rodzaju duchową radość (gaudium veritatis ). Któż z was, drodzy państwo, w mniejszym lub większym stopniu nie przeżył takiego momentu w swojej pracy badawczej!”.

Pragmatyczna definicja nauki według Stanford Encyclopedia of Philosophy brzmi w wolnym tłumaczeniu: „Nauka to systematyczne poszukiwanie wiedzy, której ważność nie zależy od nikogo, lecz którą każdy może swobodnie sprawdzać lub odkrywać na nowo”. Naukę tworzy się poprzez: 1) obserwację, 2) eksperyment, 3) indukcję/dedukcję, 4) formułowanie i testowanie hipotez. Celem ma być wiedza, przewidywanie i kontrola. Szeroko uznawane jest zaproponowane przez Karla Poppera kryterium „naukowości” jako możliwość sprawdzania (falsyfikowalność) hipotez. Eksperyment naukowy powinien umożliwić postawienie racjonalnej (?) hipotezy (z reguły z zastosowaniem symulacji komputerowej), która to hipoteza oprze się wszelkim próbom teoretycznej i doświadczalnej dyskwalifikacji.

Encyklopedia Stanforda wymienia też kryteria pseudonaukowości: 1) autorytarność opinii, 2) niepowtarzalność eksperymentów, 3) „wyłuskiwanie” niektórych przykładów, 3) unikanie niewygodnych testów, 4) odrzucanie niepasujących danych, 5) wybór tylko testów bezpiecznych dla danej teorii, 6) rezygnacja z kłopotliwych interpretacji.

Nauka niepowtarzalna

Niepowtarzalność opisywanych w literaturze naukowej badań staje się obecnie wielkim problemem nauki, zwłaszcza w zakresie nauk przyrodniczych i biomedycznych. W poważnym piśmiennictwie naukowym zgłaszany jest „significant reproducibility crisis”. Według M. Baker („Nature” 2016, 533, 452) 70% z 1576 poproszonych o to badaczy nie zdołało powtórzyć doświadczeń opisanych przez innych, a 50% nawet własnych. W laboratorium znanej firmy biotechnologicznej Amgen poddano sprawdzeniu 53 publikacje, z których 21 wydrukowały czasopisma o IF powyżej 20, a 32 czasopisma z IF od 5 do 19. Okazało się, że tylko dla 6 z tych „wysokoimpaktowanych” publikacji (11%) uzyskano potwierdzenie wyników (Begley C.G., „Nature” 2012, 483, 531).

Naukowcy nie mogą lekceważyć takich doniesień, zwłaszcza że odzywają się pewne „pomruki niezadowolenia” pod adresem uczonych spoza środowiska. Na przykład w „The Guardian” z 04.02.2010 ukazało się symptomatyczne wezwanie redaktora S. Jenkinsa pod tytułem Scientists, you are fallible. Get off the pedestal and join the common herd . W czasopiśmie „World View” w 2017 r. red. T.D. Clark poinformował o uwięzieniu amerykańskiego fizyka Darina Kiniona za oszukańczy wniosek o grant na fikcyjne obliczenia kwantowochemiczne i zasugerował, że nieuczciwość wśród badaczy nie tylko się zdarza, ale na ogół pozostaje bezkarna.

Poza fabrykacją lub tzw. masowaniem danych, obserwowanym często nadużyciem jest naciąganie tzw. poziomu istotności statystycznej postulowanej zależności do nieco „magicznej” wartości p ? 0,0, tzw. p-hacking. Prof. Jerzy Spława Neyman z Uniwersytetu Warszawskiego, który wprowadził ten powszechny parametr statystyczny (wraz z R. Fisherem i E. Pearsonem), jest chyba najczęściej przywoływanym w literaturze naukowej Polakiem, ale pewnie nie cieszyłby się z niewłaściwej interpretacji parametru. Wartość p ? 0,05 jest nadinterpretowana, co ilustruje następujący przykład. Zbadano 19 tys. par małżeńskich skojarzonych komputerowo (on-line) i tradycyjnie (off-line). Okazało się, że wśród par skojarzonych on-line było mniej rozwodów (poziom istotności p ? 0,002) i była większa satysfakcja z małżeństwa (p ? 0,001) niż u par skojarzonych off-line. Czy te wyniki mogą jednak mieć jakieś praktyczne znaczenie? Chyba nie, gdy porównać występującą w badanej populacji częstość rozwodów (7,76% względem 5,96%) i deklarowaną satysfakcję z małżeństwa (5,64% względem 5,48%), odpowiednio u obu grup.

W tym świetle trzeba też postrzegać ogłaszane co chwila nowe leki, które często tylko niewiele (choć może niekiedy statystycznie istotnie) przedłużają życie w badaniu klinicznym. Niestety, właśnie w przypadku poszukiwań lepszych leków naukowa farmacja znalazła się w XXI wieku w okresie utrzymującej się stagnacji. Jeśli w latach 90. i przedtem wprowadzano w świecie ok. 50 nowych leków rocznie, to w ostatnich dekadach rejestruje się rocznie tylko ok. 20 nowych substancji leczniczych. Zaledwie 8% nowych leków przeciwnowotworowych, wyselekcjonowanych po badaniach na zwierzętach laboratoryjnych, przechodzi pozytywnie testy kliniczne, a w ogóle próby kliniczne nowych leków kończą się aż w 95% przypadków niepowodzeniem. Być może stymuluje to zwątpienie i dość dramatyczny odwrót lekarzy od kariery naukowej w USA oraz wyraźny spadek finansowania badań klinicznych w ośrodkach akademickich w ostatnim 50-leciu.

Nauka (lub ideologicznie uwikłani uczeni) wydają się czasem skłaniać decydentów do dyskusyjnych opinii. Głośna jest sprawa przymusowej ewakuacji ok. 300 tys. mieszkańców z rejonów katastrofy elektrowni atomowej w Fukushimie po trzęsieniu ziemi w 2011 roku. Według oficjalnych danych rządu Japonii doprowadziła ona do ponad 1600 zgonów. Najprawdopodobniej potencjalnie sama pochłonięta dawka promieniowania przy braku ewakuacji nie spowodowałaby żadnego zgonu. Obowiązuje jednak opinia (właściwie mit naukowy), że nie istnieje bezpieczna dolna dawka promieniowania radioaktywnego (dopuszczalna) dla człowieka.

Przypadek Anny O. Szust

Walka o publikacje, a zwłaszcza granty badawcze, przyjmuje coraz bardziej kontrowersyjne formy. Publikacje za wszelką cenę, w tym kupowane w złych czasopismach, tzw. drapieżnych (predatory ), to nieszczęście nauki. Szacuje się, że obecnie występuje ok. 8 tys. takich czasopism, które publikują ok. 400 tys. artykułów rocznie. Wartość tych publikacji jest z reguły niewielka, gdyż czasopisma nie przebierają w środkach, rekrutując edytorów i pozyskując odpłatnie autorów. Dobitnie udowodnili to polscy naukowcy, którzy niedawno opublikowali w „Nature” artykuł pt. Predatory journals recruit fake editor , w którym przedstawili przypadek Anny O. Szust.

Wielkim problemem nauki są słabości procedur recenzenckich prac nadsyłanych do publikacji w czasopismach naukowych, a jeszcze chyba groźniejszym zagrożeniem dla społecznej akceptacji wszelkiej polityki naukowej jest pragmatyka finansowania projektów badawczych. Analiza 5881 recenzji 2264 manuskryptów nadesłanych do redakcji szanowanego „Journal of General Internal Medicine” wykazała, że tylko 7% recenzentów było zgodnych co do odrzucenia pracy. Pisze się, że procedury recenzenckie (peer reviews ) są niewiarygodne i dostarczają jedynie indywidualnych opinii, zaś stronniczość jest wszechobecna i zdarza się oszustwo. Krytyka systemu peer reviews może byłaby nieuzasadniona, gdyby słowo peer rzeczywiście oznaczało „równego rangą” (naukową, oczywiście). Z moich doświadczeń wynika, że owszem „wyżsi rangą” też się sprawdzają, co obserwowałem w konkursach grantów promotorskich czy przeznaczonych dla młodych badaczy, zarówno NCN, jak i FNP. Oczekiwanie jednak, że słabsi badacze są w stanie właściwie ocenić projekty prawdziwie kreatywne, oryginalne, lepsze od ich własnych, wydaje mi się czymś w rodzaju wiary w perpetuum mobile albo w barona Münchhausena wyciągającego się za włosy z grzęzawiska. I tutaj bynajmniej nie podzielam opinii pierwszego dyrektora NCN, prof. A. Jajszczyka, który w notce Procedury grantowe – to my jesteśmy winni pisze o składach zespołów ekspertów NCN, że „Są po prostu emanacją naszego środowiska naukowego, ze wszystkimi jego zaletami, ale także słabościami. Dlatego też zdarzają się przypadki utrącania wniosków z zespołów czy jednostek, które niektórzy eksperci traktują jako konkurencyjne…” („PAUza Akademicka” 2017, nr 390, 3). Nie uznawałbym jednostkowej złej woli recenzentów i członków paneli konkursowych za przyczynę wszelkiego zła.

Powstały przed półwieczem w USA system grantowy NIH też jest kwestionowany jako obecnie nieefektywny. Podobne głosy dotyczą odpowiednich instytucji Kanady, Australii, Francji czy Finlandii. Może koszty prowadzenia agencji grantowej NIH Center for Scientific Review nie są szokująco wysokie, gdyż wynoszą 110 mln USD, przy rocznym budżecie NIH ok. 30 mld USD, ale zaangażowanych w proces jest 24 tys. recenzentów, którzy muszą rozpatrzyć 75 tys. wniosków na ok. 2500 spotkaniach panelowych. Zajmuje to czas „kradziony” nauce i wywołuje dyskomfort psychiczny z powodu arbitralnego z konieczności wyboru.

Kto uczestniczył w procedurach konkursowych, ten wie, że na ogół tylko dwie osoby z panelu zapoznają się z wnioskiem (często też pobieżnie), a na żadną dyskusję zwykle nie ma chęci ani czasu. Mogę przytoczyć przykład, kiedy panel NCN w konkursie MAESTRO z nauk o życiu rozpatrzył ok. 40 projektów, z nich do finału zakwalifikował dwa, z których ostatecznie jeden (tak, tak – mój) odrzucił, nie wykorzystując przeznaczonych środków. Podstawą były punkty od recenzentów, a jakże – również od zagranicznych. Ci zagraniczni recenzenci to też swoisty mit. Niestety, są to na ogół mniej uznani naukowcy, którzy czują się dowartościowani zaproszeniem (lub 100 euro honorarium). Na noblistów przecież trudno realnie liczyć. Nasz panel jednak musiał mieć szczególnie wysokie mniemanie o sobie, bo bez zmrużenia oka zdyskwalifikował 97,5% wniosków jako niegodnych uwagi. Nawet przy obecnym kryzysie NIH akceptuje co najmniej 10% projektów.

Głosowanie? Życiorys? Losowanie?

Ponieważ trudności w zdobywaniu grantów badawczych stają się coraz większe, a szansa sukcesu podobna do losowej, to niektórzy naukowcy w USA zaczynają unikać potężnego, a w zasadzie nieproduktywnego wysiłku. Nie każdy może realistycznie liczyć na przyznanie finansowania na podstawie retrospektywnej oceny znakomitego aktualnego dorobku naukowego, jak to rozdysponowuje NIH w odniesieniu do 10% swoich funduszy lub jak przyznaje finanse badawcze Howard Huges Medical Institute (z których ponoć skorzystało prawie 30 noblistów). Powszechna praktyka nie może pominąć analizy samych projektów. W tym kontekście odważna, ale racjonalna wydaje się wnikliwa analiza sytemu NIH i sugestia, aby wszystkie wnioski poddawać wstępnej analizie. Z nich wskazać ok. 30% zasługujących na uwagę (meritorious ) i wylosować 15% z nich do finansowania. Wnioski non-meritorious mogłyby zostać poprawione i wrócić do oceny, zaś niewylosowane mogłyby znów być losowane w następnym konkursie.

Przy ocenie wartości projektu należy pamiętać, że za pożądany produkt badań naukowych uważa się pierwszorzędne publikacje naukowe, publikacje oryginalne, które będą przywoływane w innych wartościowych publikacjach. Nie wygląda na to, że wyraźnie większe szanse na tego rodzaju publikacje daje wysoka punktacja wniosków grantowych. W każdym razie ocena wydajności badawczej w przypadku projektu grantowego jest możliwa tylko post factum . Intuicyjnie jednak bronimy się przed myślą, że eksperci są niewiele lepsi w przewidywaniu przyszłego powodzenia projektu niż losowa selekcja, chociaż najnowsze badania jednoznacznie tego dowodzą. Pojawiają się zupełnie nowatorskie propozycje odnośnie do pozbycia się ograniczeń aktualnego systemu finansowania naukowego. Na przykład J. Bollen ze współautorami proponują wybór projektów zasługujących na finansowanie badań w wyniku głosowania przez naukowców („EMBO Rep.” 2014, 15, 131). M. Pagano rekomenduje podstawowe finansowanie dla uznanych naukowców na podstawie ich życiorysu naukowego i jednostronicowego streszczenia planu badawczego („Cell” 2006, 126, 637). J.P.A. Ioannidis („Nature” 2011, 477, 529) rozważa opcje rozciągające się od przyznawania niewielkich pieniędzy wszystkim wnioskodawcom do przyznawania grantów losowo lub na podstawie spisu publikacji aplikanta.

W tym duchu wypowiedział się Paweł Kisielow w dyskusji z Leonem Gradoniem i Maciejem Żyliczem z FNP („PAUza Akademicka” 2018, 416, 3). Według prof. P. Kisielowa, konkursy FNP dające pierwszeństwo jakości projektów są w sprzeczności z naczelną dewizą Fundacji: „Wspierać najlepszych, aby mogli stać się jeszcze lepsi”. Adwersarze prof. Kisielowa z FNP odpowiadają, że: „W ocenie wniosków grantowych […] tak samo ważna jak oryginalność proponowanego projektu jest jakość oraz oryginalność dotychczasowych osiągnięć naukowych”. Ośmielam się wątpić, bo moje doświadczenie z MAESTRO wskazuje, że ocena pozycji naukowej jest praktycznie dla wszystkich aplikantów bardzo podobna (bo trudno przecież niektórych parametrów nie zauważyć), zaś decyduje subiektywna lub pobieżna ocena projektu.

Na pytanie, czy ważniejszy dla powodzenia badań jest opis projektu, czy kwalifikacje wnioskodawcy, trudno jednoznacznie odpowiedzieć. Zapewne najlepszy jak zawsze jest złoty środek. Dysponenci funduszy na naukę, powołując się na samorządność środowiska naukowego, pewnie chętnie zdaliby się na demokratyczne mechanizmy ich rozdzielania. W nauce jednak demokracja nie wydaje się efektywna. Demokracja „ekspertyzy” powoduje, że zaczynają dominować naukowcy liczniejsi, „na dorobku”. Czyli w panelach eksperckich może wystąpić dominacja „naukowego proletariatu”. Chyba nie dojdzie do dyktatury? Ale przecież pojawiają się głosy, że problemy niepewności w „normalnej” nauce powinny być rozstrzygane poprzez „demokratyzację” wiedzy (tzw. extended peer review ).

Dane potwierdzą wszystko

Niektórzy nawet głoszą koniec nauki (J. Horgan) i erę „postnauki” (S. Funtowicz i J. Ravetz). W krytykach kryje się jądro prawdy. Faktem jest, że kiedyś nauka bazowała na wielkich teoriach (hypothesis-driven science ), a teraz często próbuje się bazować na dużych zbiorach danych (data-driven research ). Niebezpieczeństwo tego drugiego podejścia polega na tym, że dane gromadzi się głównie dlatego, że są one łatwe do uzyskania. Nowoczesna aparatura pozwala na dogodne i szybkie, wręcz rutynowe oznaczanie dowolnych indywiduów w każdym materiale. Uzyskuje się też mnóstwo danych obrazowych i obliczeniowych. Te duże zbiory danych poddaje się zaawansowanemu przetwarzaniu komputerowemu, licząc na „wyłuskanie” jakiejś przydatnej systemowej informacji. Tymczasem wiadomo, że dane odpowiednio wytrwale „obrabiane” („torturowane”) potwierdzą w końcu wszystko, czego oczekujemy. Nawet jeśli między danymi nie występują faktyczne relacje.

Na podstawie mojego doświadczenia twierdzę, że wiele publikacji z zakresu tzw. omik (genomika, metabolomika itd.), analizy środowiskowej (rozmieszczenia zanieczyszczeń, skład gleb itd.), fitochemicznej, materiałowej czy modelowania molekularnego, zwłaszcza biomolekularnego, nie wnosi trwałych elementów do nauki. Owszem, niektóre doraźne oznaczenia mogą być przydatne, np. do wykrywania awarii przemysłowej, ale to może wykonać w razie potrzeby laboratorium kontrolne, a nie zespół akademicki.

Kończąc rozważania optymistycznym akcentem chciałbym przytoczyć tłumaczenie stwierdzenia ze spotkania laureatów Nagrody Nobla w 2017 roku w Lindau: „Naukowcy cieszą się wciąż społecznym zaufaniem. Ponad 75% Amerykanów wierzy, że naukowcy działają w interesie publicznym, podczas gdy tylko 50% obdarza podobnym zaufaniem polityków”. Starajmy się, żeby tak zostało.

Prof. dr hab. Roman Kaliszan , członek rzeczywisty PAN i PAU, prof. Gdańskiego Uniwersytetu Medycznego