Ile waży jedno cytowanie?

Karol Życzkowski

Wskaźniki bibliometryczne oparte na liczbach publikacji naukowych i ich cytowań stanowić mogą jedynie pomocnicze narzędzie przy ocenie jakości pracy naukowej. Dotarcie do rzetelnej informacji, ukrytej w wartościach poszczególnych indeksów, nie jest proste, a niewłaściwa interpretacja danych scjentometrycznych prowadzi do chybionych ocen i błędnych wniosków.

W związku ze wzrostem liczby osób pracujących naukowo, liczby czasopism naukowych i opublikowanych w nich prac oraz daleko posuniętego podziału dyscyplin naukowych na wąskie podspecjalizacje, przy ocenie jakości wyników pracy naukowej poszczególnych badaczy i całych instytutów naukowych oraz poziomu czasopism coraz popularniejsze staje się stosowanie danych bibliometrycznych. W skomputeryzowanych bazach danych nietrudno znaleźć odpowiedzi na pytanie, ile prac naukowych opublikował dany uczony oraz ile razy jego prace były cytowane w późniejszych publikacjach innych autorów.

Na podstawie takich danych tworzy się różne wskaźniki, które mają dawać „proste i obiektywne” narzędzia do oceny jakości pracy naukowej. Jednakże wielu ekspertów podkreśla, że znaczenie pojedynczego cytowania nie jest jednoznaczne, a więc statystyki oparte na cytowaniach nie są tak obiektywne, jak głoszą zwolennicy bezkrytycznego stosowania danych scjentometrycznych. Np. niedawny raport Adlera i współpracowników przygotowany dla International Mathematical Union ostrzega przed błędnym stosowaniem danych statystycznych i konkluduje: „Wyłączne poleganie na danych dotyczących cytowań w najlepszym przypadku pozwala na niepełne i często płytkie zrozumienie istoty badań naukowych. Przekonanie, że dane oparte na liczbie cytowań są bardziej precyzyjne niż opinie fachowców, nie jest zasadne”.

Podczas niedawnego posiedzenia rady redakcyjnej brytyjskiego czasopisma z fizyki teoretycznej pewien znany i ceniony fizyk zdecydowanie przeciwstawiał się dyktatowi indeksów i liczb cytowań w pracy redakcyjnej. Także kilku starszych członków rady z rozrzewnieniem wspominało dawne dobre czasy sprzed „rewolucji scjentometrycznej”, kiedy można było przyjmować artykuł do druku, bo „był dobry”, nie przejmując się wskaźnikami i potencjalnymi cytowaniami. Nasze obrady zaszczycił ubrany w elegancki garnitur wydawca, który nie był raczej ekspertem z fizyki teoretycznej, lecz z pewnością dobrze liczył funty szterlingi. W swym krótkim wystąpieniu szybko sprowadził nas na ziemię, tłumacząc radzie, że jemu nie wystarcza, aby nasze pismo było po prostu bardzo dobre – musi jeszcze mieć coraz wyższy impact factor . Po tej wypowiedzi, przyjętej przez większość rady z milczącą dezaprobatą, opuścił salę obrad, wracając do swych spotkań biznesowych. Takie doświadczenie uświadomiło nam, że osoby uprawiające obecnie badania naukowe nie bardzo mogą sobie pozwolić na pociągający luksus totalnego lekceważenia cytowań i wskaźników bibliometrycznych. Ale też posiłkując się danymi liczbowymi czyńmy to odpowiedzialnie, stosując rozsądnie wszelkie wskaźniki zgodnie z celem, do jakiego zostały stworzone.

Impact factor oraz indeks Hirscha

W celu ilościowej charakterystyki wpływu danego czasopisma naukowego na daną dziedzinę wiedzy Eugene Garfield zaproponował definicję wskaźnika impact factor (IF). Jest to stosunek liczby cytowań, jakie w danym roku uzyskały prace opublikowane w piśmie rok lub dwa lata wcześniej, do całkowitej liczby artykułów opublikowanych w tym roku w analizowanym czasopiśmie. Zauważmy, że wielkość ta uwzględnia jedynie oddziaływanie w krótkiej skali czasu, gdyż na IF wpływ mają jedynie cytowania pojawiające się w literaturze w rok lub dwa lata od daty publikacji artykułu. Wskaźnik IF Garfielda był zaprojektowany do wykorzystania w naukach medycznych i przyrodniczych i dobrze dopasowany jest do specyfiki tych dyscyplin. Ale obecnie wydawcy czasopism, bibliotekarze i urzędnicy próbujący oceniać badania naukowe stosują go także w innych dyscyplinach, np. do oceny pism matematycznych, w przypadku których bardziej zasadne byłoby zliczanie cytowań, jakie ukazały się od 5 do 10 lat po opublikowaniu pracy, w związku z wolniejszym obiegiem rezultatów w tej dziedzinie nauki. Należy podkreślić, że indeks IF nie bierze pod uwagę liczby autorów, autocytowań, specyfiki danej dziedziny, a jego wartością nietrudno manipulować.

Zupełnie odmienną wielkością jest wskaźnik h, zaproponowany przez Jorgego Hirscha w roku 2005 do opisu dorobku naukowego pojedynczego badacza. Wskaźnik ten wynosi h, jeżeli h publikacji danego autora cytowano co najmniej h razy. Na wartość tego wskaźnika wpływa więc zarówno liczba publikacji badacza, jak też liczba cytowań tych prac w późniejszej literaturze naukowej.

Różnie w różnych dyscyplinach nauki

Specyfika pracy naukowej zależy istotnie od uprawianej dziedziny wiedzy. Przeciętna praca dotycząca nauk o życiu zawiera wiele odnośników do innych prac, często tych opublikowanych ostatnio i jest średnio częściej cytowana niż praca z fizyki. Dlatego też średni IF czasopism dotyczących biologii molekularnej (obecnie ponad 4.5) jest istotnie wyższy niż średni IF wynoszący 1.9 dla pism z fizyki. Z kolei proces przygotowania artykułu matematycznego trwa długo, a że w takim artykule zwyczajowo nie ma wielu odnośników, prace matematyczne cytowane są rzadziej, a średni IF czasopism w tej dziedzinie wynosi około 0.5. Szczegółowe dane dotyczące parametrów opisujących statystyki cytowań w różnych dziedzinach wiedzy przedstawiono w tabeli 1 i zilustrowano grafem cytowań przedstawionym na rys. 1. Zwróćmy uwagę, że w swych pracach historycy cytują dużo literatury (średnio ponad 80 pozycji!), matematycy mało, ale w obu przypadkach prawdopodobieństwo, że dany artykuł zostanie zacytowany chociaż raz w ciągu dwu lat po dacie publikacji, nie przekracza 10 proc.

Indeks Hirscha zaprojektowano do wstępnego porównania dorobku naukowców pracujących w jednej dziedzinie i starającego się o to samo stanowisko. Ponieważ średnie liczby publikacji, współautorów i cytowań pojedynczego artykułu zależą od uprawianej dziedziny wiedzy, nie jest rozsądne porównywanie indeksu Hirscha biologa i matematyka lub nawet fizyka pracującego w dziedzinie fizyki cząstek elementarnych i fizyki matematycznej.

Aby zilustrować tę tezę, badaliśmy parametry scjentometryczne, charakteryzujące grupy uznanych naukowców, którzy w roku 2008 w danych dziedzinach zdobyli prestiżowe Advanced Grant European Research Council. Np. mediana indeksu Hirscha w grupie laureatów konkursu w dziedzinie matematyka wynosi 9, informatyka 10, biologia molekularna 29, fizyka 30, astronomia oraz chemia fizyczna i analityczna 33, genetyka 39, a fizjologia i endoktrynologia 41. Wyniki obliczeń pokazują istotne różnice wewnątrz dziedzin zebranych w grupę „nauki fizyczne i inżynieryjne” oraz wykazują, że dane dotyczące liczb cytowań nie odzwierciedlają wyników badań w dziedzinach humanistycznych. Do właściwej interpretacji danych liczbowych potrzebna jest znajomość zwyczajów w danych środowiskach. Np. informatycy piszą sporo prac, ale zniechęceni wolnym tempem publikacji w ich czasopismach wyżej cenią publikacje w regularnie ukazujących się materiałach konferencyjnych, często nieindeksowanych w bazie ISI. Dlatego też wskaźniki nagrodzonych informatyków są znacznie niższe niż w grupie wyróżnionych fizyków, gdyż fizycy nie cenią wysoko prac w materiałach konferencyjnych, lecz starają się publikować w indeksowanych czasopismach.

Skośny rozkład liczby cytowań

Artykuły opublikowane w danym czasopiśmie nie są cytowane jednakowo. Niewielka grupa prac jest często cytowana i wpływa na wskaźnik IF, podczas gdy znaczna część prac nie jest cytowana wcale lub jest cytowana niewiele razy. Rozkłady prawdopodobieństwa, że artykuł zostanie zacytowany c razy przedstawiono na rys 2a. Ponieważ średnia liczba cytowań <c> pojedynczej pracy zależy od dyscypliny naukowej, otrzymano rozkłady wartości cytowań w różnych dziedzinach nauki. Jak pokazali Radicchi, Fortunato i Castellano, różnice pomiędzy dziedzinami nauki zanikają, jeżeli badać rozkład przeskalowanej (względnej) liczby cytowań, cf=c/<c>. Wynik ten pokazuje, że porównanie wszelkich danych dotyczących różnych dziedzin nauki może mieć sens, gdy porównuje się nie liczby bezwzględne (liczby prac, cytowań, wskaźniki IP oraz h), lecz wielkości względne, przeskalowane względem średniej w danej dziedzinie.

Ponadto uniwersalny charakter krzywej naszkicowanej na rys 2b, potwierdza, że rozkład cytowań jest skośny (niesymetryczny) i charakteryzuje się zanikiem algebraicznym. Dlatego też, jeśli średnia liczba cytowań w grupie wszystkich artykułów opublikowanych w danym piśmie w ciągu minionego roku wynosi <c>, nie należy wnioskować, że następna praca opublikowana w tym piśmie w kolejnym roku uzyska podobną liczbę cytowań.

 

Prof. dr hab. Karol Życzkowski, fizyk, pracuje w Instytucie Fizyki Uniwersytetu Jagiellońskiego oraz w Centrum Fizyki Teoretycznej PAN w Warszawie.
Tab. 1. Dane z lat 1994-2005, ilustrujące różnice pomiędzy dyscyplinami nauki: liczba pism z danej dziedziny analizowana w Journal od Citation Reports (JCR), średnia wartość <IF> w danej dziedzinie, średnia liczba cytowań <c> w każdej publikacji, prawdopodobieństwo <p>, iż dany artykuł zostanie chociaż raz zacytowany w ciągu kolejnych dwóch lat po jego publikacji i będzie miał wpływ na IF pisma (za: Althouse, West, Bergstrom, 2009). Kolejność w tabeli oddaje średnią wartość indeksu IF w danej dziedzinie.

Dziedzina

czasopisma

<IF>

<c>

<p>

Biologia molekularna

511

4.76

45.8

0.21

Astronomia

25

4.29

38.3

0.22

Medycyna

766

2.89

33.9

0.18

Chemia

145

2.61

33.1

0.17

Fizyka

503

1.91

24.0

0.17

Prawo

71

1.66

76.8

0.20

Geografia

56

0.99

46.1

0.15

Ekonomia

159

0.82

30.4

0.12

Socjologia

96

0.72

50.8

0.11

Informatyka

124

0.63

17.2

0.19

Matematyka

149

0.56

18.4

0.08

Historia

23

0.41

81.8

0.10