Wybieramy badaczy, nie wskaźniki

Maciej Żylicz, Tomasz Perkowski

Co roku, po ogłoszeniu przez Fundację na rzecz Nauki Polskiej listy zwycięzców programu START, spotykamy się z pytaniami dotyczącymi kryteriów i procedury wyboru laureatów. Program ten, oferujący stypendia dla młodych naukowców, to jeden z najdłużej trwających programów Fundacji i do dziś największy pod względem liczby zgłoszeń. Od dłuższego czasu jest ona względnie stała i wynosi ok. 1000 wniosków rocznie. Ze względu na ograniczenia finansowe, ale także w konsekwencji decyzji Fundacji, popartej wieloletnim już doświadczeniem, grono laureatów programu wynosi, w zależności od edycji, od ok. 100 do 150 osób. Przy takiej liczebności grupy laureatów można wyznaczyć w miarę wyraźną linię demarkacyjną, oddzielającą wybitnych od bardzo dobrych. Nie oznacza to oczywiście, że wybór jest prosty. Niski współczynnik sukcesu (ok. 12 proc.) nieuchronnie prowadzi do ryzyka błędu – nieprzyznania stypendium kandydatowi, który na nie zasługiwał. Niebezpieczeństwo popełnienia takiego błędu wynika także z konieczności porównywania „jabłek z pomarańczami”, tzn. dorobku np. fizyka teoretyka z dorobkiem językoznawcy, ekologa, chemika lub historyka filozofii.

Cieszymy się, że lista laureatów jest wnikliwie obserwowana i analizowana przez środowisko – uwagi, w tym także krytyczne, pomagają nam doskonalić kolejne edycje programu, a z drugiej strony, takie zainteresowanie świadczy o prestiżu, jaki udało się zdobyć temu programowi. Jesienią tego roku rozpoczniemy kolejny konkurs o stypendia START. Sądzimy, że to dobry moment na podzielenie się kilkoma informacjami na temat procedury wyboru laureatów naszego konkursu i stojących za nim intencji.

Metody i ich ograniczenia

Proces selekcji konkursowej w programie Start podlega ciągłej ewolucji. Inspiracje do zmian płyną z różnych źródeł – zarówno z naszych własnych doświadczeń, uczestnictwa w różnych krajowych i zagranicznych gremiach zajmujących się tematyką obiektywnego i sprawiedliwego systemu oceny jakości naukowej, z wsłuchiwania się w opinie środowiska (w tym byłych i obecnych kandydatów i laureatów konkursu, ich opiekunów naukowych i recenzentów), ale także na przykład z obserwacji dyskusji na forach internetowych czy blogach naukowych. O ile jednak sam proces oceny podlega zmianie, o tyle niezmienna pozostaje podstawa tej oceny. Jej głównym elementem pozostaje dorobek naukowy, jednak nie w postaci sumarycznego wskaźnika impact factor (IF) czy ogólnej liczby publikacji, ale rzeczywistej wagi i samodzielności osiągnięcia naukowego kandydata. Tytuł i ranga pisma, w którym kandydat opublikował swoje osiągnięcie, jest tylko pośrednim wskaźnikiem znaczenia tego osiągnięcia (nawet w przypadku najpoważniejszych pism naukowych tylko niewielka część artykułów jest czytana przez kogokolwiek poza autorem i jego najbliższymi współpracownikami). Osiągnięciem może być także patent lub monografia (w naukach humanistycznych i społecznych). Publikacje w renomowanym czasopiśmie, patenty lub monografie – sugerujące, ale nie determinujące rangi osiągnięcia – są zatem warunkiem pożądanym, lecz niewystarczającym do osiągnięcia sukcesu w programie Start. Stanowią podstawę oceny rangi osiągnięcia w systemie peer review, który pomimo swoich powszechnie znanych wad i słabości nadal uznawany jest za najbardziej wiarygodny sposób oceny jakości pracy naukowej.

Jednak samo użycie metody peer review wcale jeszcze nie definiuje sposobu oceny. Jednym z najczęstszych problemów tego systemu jest jego powiązanie z systemem oceny czysto bibliometrycznej. Recenzent ocenia jakość zgłaszanego wniosku na podstawie IF, zapominając że wskaźnik ten wcale nie jest „obiektywnym” miernikiem jakości pracy kandydata, bo odnosi się do czasopism, w którym kandydat pracę opublikował, a opublikował ją na podstawie wcześniejszej oceny peer review, kwalifikującej prace do publikacji w danym periodyku. Bardziej zobiektywizowanym wskaźnikiem może być zatem cytowalność danej pracy. Jednak w przypadku młodych i bardzo młodych uczonych startujących w konkursie START także ten wskaźnik dawałby przekłamane wyniki, w oczywisty sposób preferując najstarszych stażem i doświadczeniem badawczym kandydatów. Z tego samego względu w przypadku kandydatów do programu Start nie można stosować współczynnika Hirscha, którego wielkość jest silnie skorelowana z długością kariery naukowej i czasem, jaki upłynął od opublikowania pracy.

Nauka, dążąca do obiektywnego opisu rzeczywistości, ma naturalną skłonność do poszukiwania obiektywnych metod oceny własnej jakości. Wykorzystanie danej metodyki oceny musi jednak łączyć się ze znajomością jej ograniczeń i tego właśnie wymagamy od naszych recenzentów. Dane bibliometryczne mogą być cenną pomocą w ocenie sylwetki kandydata, ale nie zastąpią krytycznego spojrzenia recenzenta (specjalisty z danej dziedziny), pozwalającego na ocenę jakości, oryginalności oraz samodzielności naukowej dorobku kandydata. Celowo ograniczamy liczbę prac, które kandydat może wskazać we wniosku, do najwyżej trzech – uznanych przez niego za najlepsze. W instrukcji dla recenzentów bardzo mocno podkreślamy, iż nie liczy się liczba opublikowanych prac, lecz wyłącznie ich wartość merytoryczna. Do sukcesu w konkursie START wystarczy więc de facto jedna, wybitna praca naukowa, w której jasno można wskazać istotny, konceptualny wkład kandydata.

Patrząc z niepokojem na niektóre zwyczaje rad wydziałów czy rad naukowych, dopuszczające do habilitacji czy profesury osoby, które opublikowały z góry narzuconą, arbitralnie przyjętą liczbę prac, z określonym równie arbitralnie sumarycznym IF, zadajemy sobie pytanie, czy nauka polega na poszukiwaniu odpowiedzi na istotne pytania, czy też może na sumowaniu ułamków. Przy takim podejściu „opłaca się” podejmowanie tematów bezpiecznych, publikowanie prac, które szybko przekładają się na korzyści punktowe w ocenie, mnożenie publikacji cząstkowych, częste publikowanie w słabych czasopismach zamiast ogłaszania prac o większej wartości merytorycznej. Nasze podejście do oceny wniosków przesyłanych do Fundacji (w tym wniosków do programu Start) jest próbą wskazania, że liczy się jakość uprawianej nauki, a nie liczba publikowanych prac.

Wymagamy od naszych recenzentów, aby oceniając dorobek kandydatów, zwracali szczególną uwagę na to, czy składa się on z prac wnoszących do dyscypliny naukowej reprezentowanej przez kandydata nowe idee i/lub metody, czy raczej w jego dorobku dominują prace przyczynkowe, przeglądowe lub o charakterze raportów, doniesień pokonferencyjnych czy też popularnonaukowe. Od samych kandydatów oczekujemy, iż wykażą swój istotny, kreatywny wkład do publikacji. Udział w pracach dobrego zespołu na pewno pomaga w odniesieniu sukcesu, ale należy także udowodnić, iż jest się ważnym, twórczym elementem tego zespołu.

Relatywność oceny

Poszukiwanie wybitnych osiągnięć naukowych w pracach 27-latków (średni wiek laureatów START-u) może wydawać się zbyt ambitnym zadaniem. Co roku jednak jesteśmy zaskakiwani wysokim poziomem najlepszych kandydatów, których osiągnięcia niejednokrotnie mogłyby konkurować z dokonaniami osób znajdujących się znacznie dalej na ścieżce kariery naukowej.

Od 2009 roku laureaci programu START starający się o przedłużenie stypendium na kolejny rok biorą udział w tej samej procedurze konkursowej co nowi kandydaci. Oprócz wykazania się dorobkiem co najmniej tak samo dobrym, jak osoby ubiegające się o stypendium po raz pierwszy, muszą oni pokazać także wyraźny postęp w prowadzonych w okresie otrzymywania stypendium pracach badawczych i konkretne osiągnięcia. Obie grupy – starający się o stypendium po raz pierwszy i po raz drugi – muszą także przedstawić swoje plany badawcze na rok następny. Ocena tych planów ma znaczenie jedynie pomocnicze i rozpatrywana jest łącznie z dotychczasowym dorobkiem.

Warto poświęcić także kilka słów opisowi samej kilkustopniowej procedury oceny. Wszystkie wnioski zgłoszone do konkursu dzielone są według 17 szeroko definiowanych dziedzin nauki (kandydaci sami klasyfikują się do poszczególnych dziedzin). Jak w każdym konkursie, oprócz wniosków bardzo dobrych i wybitnych, trafiają się wnioski zdecydowanie słabsze lub przedwczesne. Dlatego po ocenie formalnej na pierwszym etapie oceny merytorycznej odrzucane są przez recenzentów wnioski w oczywisty sposób niespełniające kryteriów jakości naukowej (brak opublikowanych prac naukowych, brak znamion samodzielności naukowej kandydata, w dorobku wyłącznie prace popularnonaukowe, przeglądowe lub przygotowywane do publikacji, bez potwierdzenia przyjęcia do druku). Na kolejnym etapie każdy wniosek, który przeszedł pierwszy etap selekcji merytorycznej (a wcześniej jeszcze formalnej), oceniany jest przez co najmniej trzech recenzentów (innych od tych, którzy oceniali wnioski w poprzednim etapie). Każdy wniosek otrzymuje ocenę punktową oraz miejsce w rankingu wniosków złożonych w poszczególnych dziedzinach. Taki podwójny sposób oceny jest próbą połączenia oceny relatywnej wniosku (na tle innych zgłoszonych w danym roku) i bezwzględnej oceny jakości naukowej). Recenzenci uzasadniają swoją ocenę każdego kandydata krótkim kilkuzdaniowym komentarzem. Teoretycznie (ponieważ do tej pory nie spotkaliśmy się z taką sytuacją) jeden recenzent może uznać, iż wszystkie zgłoszone kandydatury zasługują na bardzo wysoką ocenę punktową. Nawet w tak homogenicznej grupie powinien on jednak wskazać wnioski relatywnie lepsze i relatywnie słabsze, szeregując je na liście rankingowej. Podkreślamy tę relatywność oceny, gdyż kandydaci, którzy nie otrzymali stypendium w programie START, często uznają ten fakt za równoznaczny z negatywną weryfikacją jakości ich dorobku naukowego. W rzeczywistości dorobek ten, na tym etapie rozwoju naukowego, niekiedy bardzo dobry, okazuje się słabszy jedynie od dorobku najlepszych kandydatów w danej grupie recenzenckiej.

Lista rankingowa

Jedną z często podnoszonych wad systemu oceny peer review jest uśrednianie ocen i naturalna skłonność recenzentów do większej ich zgodności w przypadku kandydatów dobrze wpisujących się w pewien z góry założony idealny model kariery naukowej. Może to prowadzić do niższego miejsca w rankingu osób o ciekawym dorobku, które w opinii któregoś recenzenta nie wpasowują się w ten model (np. z powodu działania na pograniczu różnych nauk, interdyscyplinarnego podejścia, stawiania odważnych, chociaż dyskusyjnych hipotez naukowych, eksplorujących nowe, słabo rozpoznane pola naukowe, itd.). Na rozbieżność ocen mogą mieć wpływ także kryteria subiektywne (np. merytoryczny konflikt poglądów na dane pole badawcze pomiędzy recenzentem a recenzowanym) lub nawet losowe, skutkujące na przykład mniej uważną lekturą wniosku.

Na kolejnym etapie oceny Fundacja stara się zatem wyszukać wyniki z największym gradientem ocen i miejsc w rankingu. Wnioski takie kierowane są do dodatkowej recenzji, która z jednej strony powinna pomóc w zidentyfikowaniu źródła znaczącej rozbieżności ocen recenzentów, z drugiej – dostarczyć dodatkowej oceny sylwetki kandydata.

Aby kandydat miał szansę wygrania konkursu, w praktyce musi otrzymać przynajmniej od jednego recenzenta ocenę „wybitny”. Po otrzymaniu wszystkich recenzji tworzona jest lista rankingowa, uwzględniająca zarówno pozycję rankingową, jak i ocenę merytoryczną (algorytm, którym posługujemy się do tworzenia listy rankingowej uwzględnia także m.in. liczebność danej grupy). Proponowana lista laureatów, przygotowana na podstawie takiego rankingu, jest opiniowana przez Radę Fundacji, której członkowie reprezentują różne dziedziny badawcze, a następnie zatwierdzana przez Zarząd Fundacji.

W 2010 roku skorzystaliśmy z pomocy łącznie prawie 70 ekspertów, którym chcielibyśmy przy tej okazji po raz kolejny podziękować, gdyż podjęli się oni niezwykle trudnego i czasochłonnego zadania, wymagającego niejednokrotnie wyjścia poza własną specjalizację i przyjrzenia się wnioskom reprezentującym całe spektrum badań uprawianych w zakresie ich dziedziny (bez czego niemożliwe byłoby stworzenie listy rankingowej w poszczególnych grupach recenzenckich).

W tym roku udało nam się zrealizować pomysł dojrzewający już od pewnego czasu w Fundacji. Listę laureatów zamieszczoną na stronie internetowej FNP uzupełniliśmy o wykaz publikacji, które stały się podstawą przyznania stypendium. Mamy nadzieję, że możliwość zapoznania się z dorobkiem laureatów pozwoli obserwatorom konkursu lepiej zrozumieć, na jakich kryteriach opierał się ich wybór.

Pozwoliliśmy sobie na tak obszerny opis procedury konkursowej nie po to, aby udowadniać, iż system ten jest szczególnie oryginalny lub też nieomylny. O wyjątkowości programu Start decydują pewne warunki brzegowe: otwartość na wszystkie dyscypliny naukowe i możliwie niewielkie wymogi formalne ograniczające udział w konkursie (co skutkuje bardzo dużą liczba zgłoszeń). Przy takich założeniach nieunikniony jest pewien odsetek decyzji kontrowersyjnych. Jednak kontrowersje te mogą dotyczyć subiektywnej z natury rzeczy wyższej oceny osiągnięcia A od osiągnięcia B, ale nie powinny dotyczyć przewagi sumarycznego IF publikacji kandydata B nad sumarycznym IF publikacji kandydata A, gdyż Fundacja z pełną świadomością nie bierze takiego kryterium pod uwagę.

Chcieliśmy także pokazać osobom startującym w konkursie, że ich wnioski nie wpadają w tajemniczą, urzędniczą czarną dziurę, lecz podlegają uważnej, wielostopniowej ocenie – dokonywanej nie przez komputer, ale uważnie dobierane grono uczonych z Polski i zagranicy.

Prof. dr hab. Maciej Żylicz, biochemik i biolog molekularny, prezes Fundacji na rzecz Nauki Polskiej.
Dr Tomasz Perkowski, wiceprezes zarządu FNP.