Ocena parametryczna – co dobre, co zmienić

Jerzy Marian Brzeziński

I stało się. Po trzech latach od ogłoszenia wyników poprzedniej oceny parametrycznej jednostek naukowych 30 września br. na stronach www MNiSW opublikowano tabele zawierające dane dotyczące prawie 1000 jednostek, których oceny dokonał KEJN – następca Rady Nauki (to ona sporządziła ostatnią ocenę, a jej rezultaty poznaliśmy 30 września w 2010 r.). Środowisko czekało z pewnym zniecierpliwieniem na ogłoszenie rezultatów pracy KEJN. Jak wiadomo, ta ocena miała być przeprowadzona już w 2012 roku, a więc zaledwie po dwóch latach, które minęły od oceny dokonanej przez Radę Nauki (za lata 2005-2009). Jednakże nawał prac i problemy techniczne, które trzeba było rozwiązać, doprowadziły do wydłużenia tego okresu o rok. Od razu zaznaczę, że trzeba było spokojnie poczekać jeszcze rok, aby wyczerpać ustawowe 4 lata dzielące kolejne oceny i spokojnie, bez niepotrzebnego pośpiechu, ogłosić wyniki, gdy ocenione byłyby tylko całkowicie nowe dokonania jednostek, powstałe w latach 2010-2013.

W imię transparentności

Zacznę od pozytywów. Widzę ich kilka, jeśli jako punkt odniesienia przyjmie się metodykę postępowania ewaluacyjnego przeprowadzonego przez Radę Nauki II kadencji.

Po pierwsze, do współpracy pozyskano profesjonalną firmę Index Copernicus International (ICI), która wspomagała KEJN i zespoły ewaluacji od strony narzędzi elektronicznych i wykonywała wszystkie niezbędne analizy zebranych od jednostek danych. Mogę bardzo pozytywnie ocenić współpracę zespołu ze specjalistami z ICI. Jedyne zastrzeżenia dotyczą narzuconego ICI przez KEJN tempa prac nad przygotowaniem skomplikowanego oprogramowania (też w toku trwania prac ewaluacyjnych) i braku czasu na bardziej wnikliwe analizy sprawdzające przygotowywanych narzędzi. I dlatego jeszcze ten jeden rok bardzo by się przydał.

Po drugie, KEJN (dokładniej: przewodniczący, prof. Maciej Zabel) powołał zespoły ewaluacji składające się z ekspertów znających gruntownie „swoje” dyscypliny naukowe. Było ich około 150. Zespół działający w mojej dziedzinie, naukach społecznych, składał się z pedagogów, politologów, psychologów, socjologów. Taki zabieg umożliwiał naprawdę wnikliwą ocenę dostarczonego przez jednostki materiału (na podstawie kart ocen elektronicznie wypełnianych przez jednostki) przeprowadzoną przez dwóch niezależnie działających specjalistów (na podstawie wskazania dokonanego przez przewodniczącego zespołu). Przy większej rozbieżności ocen (wskazywał ją automatycznie komputer jako zadania dla przewodniczącego) rozstrzygała ocena dokonana przez przewodniczącego. Uważam przyjęcie takiego rozwiązania za wyraz troski ze strony KEJN o dokonanie rzetelnej oceny dokonań jednostek naukowych. Od ostatniej oceny minęły trzy lata. To bardzo dużo, jeśli chodzi o postęp technologiczny. Na tak zawansowane wspomaganie elektroniczne nie mogliśmy wówczas liczyć. Dobrze też układała się współpraca zespołu (zwłaszcza jego przewodniczącego) z „opiekunem” ze strony KEJN – w HS-SP był nim dr Dominik Antonowicz, socjolog z UMK.

Po trzecie, ocenie nadano po raz pierwszy charakter wielowymiarowy (czemuś przecież służą komputery!) i odwołano się, też po raz pierwszy, do złożonej procedury obiektywizującej przeprowadzone porównania jednostek – procedury porównywania parami (FA 7-8/2012 przybliżyło ją czytelnikom w artykule specjalistów S. Kistryna i O. Hryniewicza Zrozumieć metodę porównań parami . Jej suchy i mało komunikatywny dla niespecjalistów opis znalazł się też w tekście rozporządzenia regulującego całą parametryzację).

Poprzednia ocena prowadziła do wyodrębnienia trzech kategorii jednostek na podstawie prostego (i to była jej podstawowa słabość) zsumowania wszystkich ocen. Liczba kategorii była odgórnie limitowana. Środowisko przyzwyczaiło się do owych rankingów i wykazuje pewną bezradność, jeśli chodzi o posługiwanie się czterema wskaźnikami cząstkowymi (mało tego, dwa były standaryzowane, a dwa nie) i jednym wskaźnikiem globalnym o zakresie wartości trudnym do zrozumienia dla wielu odbiorców: od -100 do +100.

I tu pierwsza uwaga krytyczna. KEJN nie zadbał o pełną transparentność procedur (co ujawniło się, a właściwie zostało ukryte, zwłaszcza przy wprowadzeniu nowej „elitarnej” kategorii „A+”). Nie podał też bardzo ważnej informacji o wartościach cząstkowych wyników i o szczególnie ważnych wartościach jednostek referencyjnych. Dlaczego? W miarę możliwości – właśnie w imię transparentności – należy opublikować jak najwięcej danych szczegółowych. Tak, aby wszyscy zainteresowani mogli sami zobaczyć, jakie cząstkowe oceny doprowadziły poszczególne jednostki do określonych kategorii. Trzeba też – koniecznie! – zamieścić dane dotyczące wartości jednostek referencyjnych. Owa możliwość wglądu w „szczegóły” ma specjalne znaczenie przy wyodrębnianiu elitarnej kategorii „A+”. To zrozumiałe, że budzi ona wiele emocji; każdy chciałby się w niej znaleźć. Dlatego przy tej właśnie kategorii rozszerzyłbym liczbę informacji – najlepiej do wszystkich w tym celu wykorzystanych. Wzorowałbym się na tym, co zrobiła Rada Nauki II kadencji; na portalu Nauka Polska znajdziemy pod adresem http://nauka-polska.pl/shtml/ocena_2010/ocena_2010.shtml wszystkie karty ocen jednostek ze zsumowanymi danymi do poszczególnych tabelek kart ocen. Sugeruję, aby dziś postąpić podobnie.

Do plusów zaliczam też wprowadzenie kryterium IV, ocenianego ekspercko na podstawie samoopisu jednostki, która sama typowała swoich dziesięć najważniejszych osiągnięć. Jednak nie wszystkie jednostki poradziły sobie z nim. Myślę, że znowu zabrakło bardziej wyczerpującej informacji (nawet ze wskazaniem większej liczby typowych osiągnięć. Nie jestem przekonany, iż eksperci poradzą sobie ze skalą o rozpiętości aż 100 pkt. Wystarczyłaby skala o rozpiętości 7-11 pkt. Należało też jakoś wystandaryzować oceny we wszystkich zespołach ewaluacji. W moim zespole tak postąpiono.

Pięta achillesowa

A teraz o tym, co nie „wyszło”, czy nie w pełni „wyszło”, i co czeka na naprawę do następnej, za cztery lata, oceny.

Mam nadzieję, że przede wszystkim uzyska ona lepszą oprawę prawną. Pominę drobniejsze usterki czy punkty dyskusyjne, a skupię się jedynie na tych poważnych. W trosce o jakość przyszłej oceny (podkreślam – przyszłej, bo tę już mamy za sobą) powinno się ze zmianą ustawy z 30 kwietnia 2010 r. o zasadach finansowania nauki i towarzyszących jej aktów wykonawczych włącznie rozwiązać kilka problemów.

Bodajże najważniejszy, i nadal „uwierający”, jest problem zdefiniowania „grup wspólnej oceny” (GWO). To swoista pięta achillesowa. Nie rozwiązano go satysfakcjonująco w czasach Rady Nauki i nie rozwiązał go KEJN. Bliski natomiast rozwiązania był KBN, który dopuszczał, że z wydziałów wielodyscyplinowych, należących do różnych dziedzin naukowych, można było wyłączać i poddawać odrębnym ocenom mniejsze ich jednostki (np. instytuty). Ten problem nie jest dotkliwy dla instytutów PAN i instytutów badawczych, bo są one na ogół jednorodne (np. Instytut Psychologii PAN). Jest to jednak poważny problem, gdy w ramach jednej GWO, a tak było w HS1SP (92 jednostki uczelniane – ale nie wszystkie możliwe! – ze ścisłego obszaru nauk społecznych), trzeba było dokonywać porównań jednostek jednak różniących się. No bo jak porównać ze sobą dwa wydziały uniwersyteckie: Wydział Psychologii UW (tylko jedna dyscyplina naukowa, społeczna; o pełnych uprawnieniach akademickich i przyznanej kategorii „A+”) z Wydziałem Nauk Historycznych i Pedagogicznych Uniwersytetu Wrocławskiego (struktura instytutowa; dyscypliny społeczne: pedagogika i psychologia oraz dyscypliny humanistyczne: archeologia, historia, historia sztuki, etnologia i antropologia kulturowa, kulturoznawstwo, muzykologia; nie ze wszystkich dyscyplin naukowych wydział posiada pełne uprawnienia do nadawania stopni naukowych; przyznana kategoria „A+”)? Jak porównać ze sobą całą uczelnię, Collegium Civitas (profil społeczno-humanistyczny; kategoria „A”), z pojedynczymi wydziałami czysto społecznymi (np. o profilu pedagogiczno-psychologicznym)? Podobne problemy występują i w innych GWO.

Nie wszystkie, mówiąc skrótowo, psychologie były ze sobą bezpośrednio porównywane. I dochodzimy do takich paradoksów, że słabsza jednostka psychologiczna, ale znajdująca się na mocnym naukowo wydziale, jest wedle kategoryzacji lepsza od faktycznie mocniejszej naukowo jednostki psychologicznej. I co z tym zrobić? Nie można też było porównywać bezpośrednio dość homogenicznych grup jednostek psychologiczno-pedagogicznych czy jednostek psychologiczno-socjologiczno-pedagogicznych. Wiem, że ustawa… Ale ustawy należy zmieniać i czynić je bardziej sensownymi i lepiej przystającymi do opisywanej rzeczywistości.

Nauka jest jedna

Moim zdaniem, takie „składankowe” wydziały łatwiej zaliczają się do kategorii „A” czy „A+”. To, że jednostka powinna mieć pełne uprawnienia naukowe (doktorskie i habilitacyjne) w tych kategoriach jest dla mnie oczywiste. Pokaźna kolekcja uprawnień akademickich w II (niestandaryzowanym!) kryterium (a ważyło one w całkowitej ocenie aż 15%) znacząco podciągało jednostkę w finalnej ocenie. Duże „składankowe” wydziały uzyskiwały bardzo dużo punktów, nawet 500-600. I oczywiste jest też, że taka jednostka powinna mieć te uprawnienia w każdej z „jej” dyscyplin naukowych. Jednakże np. Wydział Nauk Historycznych i Pedagogicznych Uniwersytetu Wrocławskiego (HS1HS) ma tylko w części swoich jednostek pełne uprawnienia, a mimo to zakwalifikował się do kategorii „A+”.

Nawiasem mówiąc, w grupie „nauk historycznych” (30 jednostek naukowych) przyznano aż 4 (13,3%) kategorie „A+” (2 jednostki uczelniane i 2 jednostki PAN). Najwięcej w relacji do wielkości pozostałych sześciu grup nauk w obrębie HS. Dla porównania, w dwóch grupach najliczniejszych: „nauki społeczne” i „nauki ekonomiczne” (liczących odpowiednio: 98 i 101 jednostek) kategorię „A+” przyznano trzem (3%) jednostkom (2 uczelniane i 1 z PAN) oraz dwóm (2%) jednostkom (obie z SGH).

Do tej samej „bajki” należą też dziwne GWO, które zostały utworzone według ich charakteru organizacyjnego: jednostki szkół wyższych (w tym całe szkoły!), jednostki PAN, instytuty badawcze, inne jednostki. Napisałem, że były to „dziwne” GWO, gdyż ich jednostki (a bywało, że była to grupa złożona tylko z jednej (!) jednostki (np. Instytut Nauk Prawnych PAN w GWO-PR) były oceniane w ramach szerokiej GWO – HS-PR, a potem kategoryzowano je wewnątrz ich wąskiej grupy. Mogło to mieć przykre dla nich konsekwencje, gdyż wedle § 18 ust. 6 i 7 rozporządzenia przyznanie kategorii „A+” możliwe jest tylko jednej czwartej najlepszych jednostek z danej GWO, które uzyskały kategorię „A”. A ile to jest 25% od 1 jednostki (przypadek HS2PR) czy od 3 jednostek (przypadek HSO2SP). W tym ostatnim przypadku KEJN zdecydował, że jest to 1 jednostka (IFiS PAN – i uważam, że ta jednostka jak najbardziej słusznie uzyskała to wyróżnienie). Wyobraźmy sobie jednak – i nie jest to wcale niemożliwe – że w owej GWO wszystkie trzy jednostki były bardzo, bardzo wybitne o wskaźnikach przewyższających wszystkie pozostałe jednostki z szerokiej GWO-SP. Dwie zostałyby skrzywdzone.

Można uniknąć takich wpadek, gdyby zrezygnować z dzielenia jednostek naukowych wedle przynależności do szkół wyższych, PAN itd. Domyślam się, skąd się to wzięło. Był to swoisty ukłon w stronę środowiska szkół wyższych. KEJN po prostu uległ ich naciskom. No cóż, ja z kolei uważam, mimo że wywodzę się z tego środowiska i do niego należę, że nauka jest jedna. I nie bardzo chcę wierzyć w to, że słabsze naukowo jednostki są dlatego słabsze (np. mniejsza liczba artykułów drukowanych w czasopismach z listy JCR), że muszą też prowadzić zajęcia dydaktyczne.

Waga preferencyjna

Nawiasem mówiąc, trzeba rozwiązać jeszcze jeden problem. Czy naprawdę każdy, jeżeli poczuje taką wolę, musi być poddany ocenie parametrycznej. Uważam, że nie. W mojej grupie znalazły się też dość egzotyczne jednostki uczelniane ze sfery szkolnictwa niepublicznego o mało licznym składzie osobowym. Uważam, że należy też wprowadzić jakąś progową wartość N dla jednostek uczelnianych prowadzących kierunki studiów, których niewielka liczba pracowników musi budzić uzasadnione pytania o to, jak możliwe jest jej funkcjonowanie (przy relatywnie bardzo dużej liczbie studentów). Można by ją powiązać z liczbą kształconych studentów. Wiem, że idzie o mały mianownik wskaźnika Q w Kryterium I. Ale są jakieś rozsądne granice takich manipulacji. Proponowałbym jako dolną granicę N – 20-25 osób. Rada Nauki II kadencji wyodrębniła małe jednostki (w naukach humanistycznych i społecznych przyjęto jako dolną granicę N = 20). Były one odrębnie oceniane. Dlaczego KEJN zrezygnował w publikowanych zestawieniach z informacji o N jednostki? To bardzo ważna informacja i dużo można się z niej dowiedzieć o charakterze jednostki (zwłaszcza uczelnianej).

Uważam też, że uprawnienia doktorskie jednostki powinny stanowić próg wejścia do kategorii „B”, albo do kategoryzacji w ogóle. Z kolei uprawnienia habilitacyjne powinny być progiem dla kategorii „A”. To by zniechęciło tych, którym się wydaje, że zajmują się nauką.

Kolejny problem (jeszcze nierozwiązany) rzeczywistej kondycji publikacyjnej danej jednostki. Czyje osiągnięcia powinny być uwzględnione w liczniku stosunku Q1 (Kryterium I)? Moim zdaniem tylko osiągnięcia tych osób, dla których ta właśnie jednostka jest (wskazanym przez nią) podstawowym miejscem zatrudnienia. To zaś oznacza (powinno oznaczać), że może ona rozliczać się ze swojej aktywności naukowej tylko w tej jednej (!) jednostce. Z rozporządzenia należy usunąć § 15 ust. 5-7 – jednostka może włączyć do listy swoich publikacji także i te, które są zgłaszane przez osoby spoza niej. I wcale nie tak mało. W małej jednostce to może przesądzić o jej nieadekwatnie zawyżonej kategorii. Zgodziłbym się tylko na dodanie do wykazu publikacji jednostki prac doktorantów z wszczętym w jednostce przewodem doktorskim. Gdyby jednak, mimo wszystko, pomyśleć o jakiejś „uldze” dla jednostek szkół wyższych, to można by to załatwić wagą preferencyjną (np. 1,1?). Teraz nie wszystkie jednostki (np. ze sfery niepublicznych szkół wyższych) pokazują jedynie prace swoich „podstawowych” pracowników. Wykazy obejmują też prace osób zatrudnionych w jednostce, która jest dla nich dodatkowym miejscem zatrudnienia oraz prace osób, które wskazały jako miejsce afiliacji publikacji właśnie dana jednostkę. Nawiasem mówiąc, zachowanie tych zapisów prawnych jest patogenne, gdyż umożliwia „kupowanie” publikacji przez placówki zamożne, a niekonieczne mocne naukowo. Zauważmy ten wstydliwy problem.

Kolejna kwestia, to nadmiar danych zbieranych za pomocą kart oceny jednostek. Moim zdaniem wystarczyłoby tylko kilka, ale za to naukowej „wagi ciężkiej”. Mnie się akurat podobało, że w mojej GWO publikacje ważyły 65%. I poszedłbym dalej – niech to będzie nawet 80%. Wszak to, co najważniejsze, dotrze do innych tylko jedną drogą – publikacyjną. Bardzo dobry czy nawet dobry referat wygłoszony na konferencji naukowej powinien się przełożyć na równie dobry artykuł opublikowany w znaczącym czasopiśmie międzynarodowym. Najlepiej jeśli są to czasopisma z listy JCR i monografie publikowane w językach tzw. kongresowych (chociaż w mojej GWO jest to tylko angielski). Reszta to „drobiazgi” nieróżnicujące jednostek mocnych i słabych. Najlepsze jednostki mają dobre publikacje, a w słabych przeważają „naukowe śmieci”. Szkoda czasu, aby nimi się zajmować. Nie można było się znaleźć w kategoriach „A” i „A+” ze słabymi publikacjami (proszę popatrzeć na kolumnę „Kategoria I”). I to, podkreślam, jest mocną stroną tej parametryzacji – położenie nacisku na publikacje.

Ważne jest uwzględnienie informacji o pozyskanych przez pracowników jednostek grantach (dobrze, że z limitowanej listy). Szkoda tylko, że KEJN „spojrzał” na tę aktywność poprzez pozyskane środki finansowe. Ja z kolei wolałbym, aby premiowana była liczba grantów, bo ona świadczyłaby o stopniu zaangażowania pracowników jednostki w pozyskiwanie środków ze źródeł zewnętrznych. Jednak czym innym są dwa wysoko finansowane granty, a czym innym 10 grantów, które finansowo równają się tamtej kwocie. Dobrze mieć w jednostce takich liderów i trzeba to docenić, ale też dobrze, że większa liczba pracowników angażuje się w procedury pozyskiwania grantów.

Usterki prawne

Jeżeli dokładnie przeanalizować jakościowy rozkład jednostek wedle ich zakwalifikowania się do jednej z trzech kategorii, to nietrudno zauważyć, przynajmniej w mojej grupie „SP”, że nadmiernie „spuchła” kategoria „B”. Nie sądzę, że mało jednostek znalazło się w kategorii „A” czy „A+”. Wręcz przeciwnie, uważam, że jest ich tam zbyt dużo, zwłaszcza w kategorii „A+”. Pamiętam pierwsze, jeszcze w lipcu, wypowiedzi różnych ekspertów, że będzie to kategoria naprawdę bardzo ekskluzywna. Niestety, ona też „spuchła”. Zbyt mało jednostek znalazło się w kategorii „C”. Dlaczego? Wedle mojego oglądu mogłoby być ich w tej kategorii znacznie więcej. Niestety - ale to już temat na inne, znacznie bardziej pogłębione opracowanie - „winna” jest zbyt wysoka punktacja monografii (przy liberalnej ich definicji: objętość minimum 6 arkuszy i dowolne wydawnictwo). Słabe jednostki rozliczały się monografiami wydawanymi przez własne wydawnictwa uczelniane (także te w języku angielskim!). Jeżeli połączymy tę punktację z niewielkim „N” wykazywanym przez jednostkę, to mamy odpowiedź na pytanie, jak łatwo uzyskać kategorię „B”?

Pozostańmy jeszcze przy kategorii „B”. Nietrudno zauważyć, że w tej kategorii znalazły się jednostki i bardzo dobre, i bardzo złe. Znalazły się takie, którym niewiele brakowało do kategorii „A” (niektóre z nich nawet były poprzednio w tej kategorii) i takie, którym o wiele bliżej do kategorii „C”. To niesprawiedliwe. Jednostki bliskie „A” to też duże wydziały, które „zabiło” wysokie „N” w mianowniku: Q1 (w mojej grupie: 65% ostatecznej oceny). Moja sugestia, to wyodrębnienie w ramach dużej kategorii „B” dwóch bardziej jednorodnych kategorii: „B-1”, mocniejszej naukowo i aspirującej do kategorii „A” oraz „B-2”, słabszej naukowo, której realnie grozi zsunięcie się do kategorii „C”. Taki układ podkategorii mógłby spełniać funkcję formacyjną – postaraj się, aby awansować (jest to w twoim zasięgu) i uważaj, bo wpadniesz w tarapaty (i jest to całkiem realne).

Moim zdaniem, przedstawiona środowisku ocena parametryczna jednostek naukowych jest znacznie bardziej pogłębiona i oparta na bardziej rzetelnych i trafnych danych. Nie oznacza to jednak, jak starałem się wykazać, że jest ona wolna od usterek. KEJN nie uniknął błędów czy uproszczeń. Nawet gdy był ich świadomy, to był bezradny. Wiązały go przepisy. W jakiejś mierze odpowiadają za nie prawnicy. Części (i to znaczącej) można było uniknąć, gdyby ustawodawca lepiej przygotował stosowne akty prawne. Są one jednak do naprawienia przy następnej ocenie. Zabrakło też czasu na pogłębioną i rzetelną komunikację ze środowiskiem. Marzy mi się, że po usunięciu usterek (zmiana aktów prawnych!) środowisko będzie mogło spokojnie wykonywać swoje zadania badawcze i że nie będzie zaskakiwane (po raz który to już?) radykalnymi zwrotami w podejściu do oceny parametrycznej. Ta jest naprawdę potrzebna, ale musi być prowadzona za pomocą procedur w pełni transparentnych. Teraz pora na to, aby członkowie KEJN, a może i zaangażowani w prace członkowie zespołów ewaluacji (wszak byli oni najbliżej danych) zaczęli mówić, pisać i objaśniać uzyskane rezultaty. Same zestawienia statystyczne to jednak zdecydowanie za mało. Byłaby wielka szkoda, gdyby trud około 200 osób (członkowie KEJN i zespołów ewaluacji) był odrzucony czy nawet zignorowany przez środowisko akademickie. I wcale nie myślę o osobach funkcyjnych: rektorach, dziekanach czy dyrektorach. Taka przystępnie podana informacja (ale też komentarz) powinna dotrzeć przede wszystkim do tych, którzy dostarczają jednostce punktów, do badaczy. To ich musimy przekonać do celowości działań KEJN.

Prof. dr hab. Jerzy Brzeziński, dyrektor Instytutu Psychologii UAM, przewodniczący Rady Kuratorów Wydziału I Nauk Humanistycznych i Społecznych PAN. E-mail: brzezuam@amu.edu.pl