Cytowania i wskaźnik Hirscha: gdzie szukać, jak obliczać?

Grzegorz Racki, Aneta Drabek

W ostatnim okresie, zwłaszcza dzięki nowym zasadom w konkursach Narodowego Centrum Nauki, znacznie wzrosła rola wskaźników cytowań w ewaluacji dorobku naukowego poszczególnych badaczy. Do niedawna traktowano je często z podejrzliwością lub przymrużeniem oka, ale sytuacja się szybko zmienia (patrz np. A. Rogalski ze współautorami, FA 9/2012). Dla przykładu, nawet przy ocenie instytucji A. Pilc na łamach FA (1/2012) postulował ograniczenie się tylko do tego typu bibliometrycznej parametryzacji. Mizerię polskiej nauki w takim kontekście dobitnie przedstawił G. Gorzelak w „Polityce” z 5 września 2012 r. w polemicznym artykule pod znamiennym tytułem Reprodukcja miernoty . Z drugiej strony, niezbyt precyzyjne kryteria oceny i różnorodne źródła danych odnośnie do cytowań rzutują na nieporównywalność wielu informacji, a tym samym obniżają wiarygodność wszelkich tego typu statystyczno-porównawczych analiz.

Celem niniejszego artykułu jest (1) wprowadzenie ujednoliconej terminologii dotyczącej powszechnie stosowanych kryteriów cytowalności, w połączeniu z (2) pokazaniem różnorodności zalet i wad informacji pozyskiwanych z różnych źródeł. Dodatkowe aspekty to szczegółowe wskazanie praktycznych sposobów wyszukiwania tych danych oraz wskazówki dla decydentów odnośnie do wad i zalet każdej bazy danych i pozyskiwanych z nich parametrów.

Koncentrujemy się na jak najmniej czasochłonnym – niejako seryjnym – sposobie pozyskiwania podstawowych danych bibliometrycznych, gdyż takie są teraz wymogi KEJN co do ankiety jednostki (Rozporządzenie Ministra NiSW z 13 lipca 2012 r., zał. 1): w wykazie pracowników zatrudnionych w jednostce naukowej należy bowiem m.in. podać „liczbę cytowań publikacji w poszczególnych latach objętych ankietą według Web of Science ”. Rzecz jasna, synteza ilościowa detalicznego sprawdzenia każdego powołania byłaby stuprocentowym gwarantem wiarygodności wyników, tylko ile czasu trzeba na to poświęcić w przypadku dużego zespołu naukowców cytowanych corocznie w stu i więcej publikacjach? Analizujemy przy tym trzy zasadnicze banki danych: (1) preferowany przez KEJN i NCN, najbardziej ceniony filadelfijski Web of Science (WoS ), założony przez E. Garfielda (istniejący na rynku od 1963 r.), (2) bardziej przyjazny Scopus międzynarodowego koncernu Elsevier (3) oraz ogólnie sieciowo osiągalny Google Scholar (GS ), statystycznie prezentowany w oferowanym za darmo systemie Publish or Perish 3 . Co ważne, dwie pierwsze komercyjne bazy cytowań są obecnie powszechnie dostępne w Polsce dzięki Wirtualnej Bibliotece Nauki (http://wbn.edu.pl/).

Podstawowe terminy

Porównanie baz danych pod względem możliwości szybkiego wyszukania/wyliczenia wskaźników cytowań (C – liczba cytowań, h – wskaźnik Hirscha) dla poszczególnych naukowców: b – dane TYLKO dla publikacji zarejestrowanych w bazie danych (bazowe dane niezredukowane); bz – ww. dane po odliczeniu samocytowań (bazowe dane zredukowane); n – dane dla WSZYSTKICH publikacji (kompletne dane niezredukowane); nz – ww. dane po odliczeniu samocytowań (kompletne dane zredukowane)l + możliwość szybkiego wyszukania; [+] możliwość przybliżonego szybkiego wyszukania; * możliwość szybkiego obliczenia, [*] możliwość przybliżonego obliczenia, – brak możliwości. Dokładniejsze informacje na temat procedur wyszukiwania i obliczania wskaźników bibliometrycznych są zawarte w instruktażowej prezentacji do uzyskania od współautorki artykułu (anetadr@gmail.com).

Terminologia cytowań dotyczy dwóch różnych aspektów zasobów informacyjnych indeksów cytowań, ich kompletności i uwzględniania samocytowań.

Wskaźniki bazowe : dane uzyskiwane bezpośrednio z baz danych (= dane wyszukiwane), czyli ograniczone do publikacji zarejestrowanych w konkretnej bazie danych (wyszukiwane za pomocą formularzy: „Create Citation Report” w WoS bądź „View Citation Overview” w Scopusie ; np. https://www.brainshark.com/thomsonscientific/vu?pi=zFvz8rGmdz23O2z0). To ograniczenie nie dotyczy GS, który obejmują światowe zasoby sieciowe.

Wskaźniki kompletne : uzyskiwane na drodze dodatkowych mniej lub bardziej czasochłonnych wyszukiwań i operacji matematycznych (= dane wyliczane), ale za to dotyczące wszystkich publikacji danego autora uwzględnionych w literaturze cytowanej przez publikacje indeksowane w danej bazie danych. W WoS te parametry, oddające bibliometryczną rzeczywistość, można wyliczyć przez przeanalizowanie informacji uzyskiwanych za pomocą specjalnego formularza „Cited Reference Search”, a w Scopusie – „View secondary documents”.

Co trudne niekiedy do zrozumienia, tylko w niektórych dziedzinach, zwłaszcza z obszaru nauk biomedycznych, informacje bazowe (i po 1995 r.) są reprezentatywne dla całego dorobku badacza czy instytucji – jak to bezkrytycznie zakłada A. Pilc. Sęk w tym, że dla wielu innych dziedzin, i to nawet z kręgu nauk przyrodniczych (nie mówiąc o humanistyczno-społecznych), rozbieżności są zasadnicze, zwłaszcza dla przedstawicieli starszych generacji publikujących przeważnie przed 1995 r.

Inne ważne rozróżnienie to dane niezredukowane (z samocytowaniami) lub dane zredukowane (bez samocytowań). Tylko autor jednej publikacji nie będzie na pewno miał samocytowań. Na drugim biegunie są bardzo intensywnie publikujący początkujący badacze, którzy w ten sposób „pompują” swoje wskaźniki, fałszując w istocie ich ewaluacyjną wiarygodność jako mierników pozycji dorobku w nauce światowej. Dla wskaźników kompletnych możliwa jest jedynie aproksymacja danych zredukowanych przez przeniesienie „poziomu samocytowalności” ze wskaźników bazowych, przekraczającego niekiedy i 60 proc. w przypadku młodych doktorów habilitowanych.

Są wskaźniki… i wskaźniki

W literaturze naukoznawczej można znaleźć wiele propozycji modyfikacji dotychczasowych lub zupełnie nowych wskaźników jakości badań naukowych. Pomijając ograny temat parametru jakości czasopism, jakim jest Impact Factor , to nawet tak ostatnio nagłaśniany wskaźnik Hirscha (h ), zaproponowany zaledwie 7 lat temu, jest daleki od doskonałości. Dotyczy to zwłaszcza zastosowania do oceny poszczególnych badaczy (choć tak był pierwotnie adresowany przez profesora fizyki z University of California; www.pnas.org/content/102/46/16569.full.pdf+html). Np. autor tylko dwóch przełomowych książek, każda po 1000 cytowań, będzie miał wskaźnik h = 2 (i to w wersji danych wyliczanych) lub nawet 0 (jako dane wyszukiwane). Z drugiej strony autor 20 przeciętnych artykułów, cytowanych każdy po 20 razy, będzie miał ten bibliometryczny parametr na poziomie 20!

Dlatego potrzeba dodatkowego wskaźnika jest oczywista – niezależnie od całkowitej liczby cytowań, trudnej w wielu przypadkach do jednoznacznego ustalenia, z reguły proporcjonalnej do liczby publikacji (np. autor 100 prac, cytowanych każda po 3 razy, będzie miał w sumie aż 300 cytowań). Najprostszym i łatwym do wyszukania wskaźnikiem uzupełniającym wskaźnik h jest maksymalna liczba cytowań jednej pracy danego autora. Te dwie informacje, a niekoniecznie całkowita liczba cytowań, dostatecznie miarodajnie charakteryzują udział badacza w międzynarodowym obiegu informacji naukowej. Kto bowiem wnosi większy wkład w rozwój nauki: autor jednej doniosłej pracy uzyskującej 200 cytowań czy autor 100 przyczynkowych publikacji skutkujących 2 cytowaniami (w wersji danych zredukowanych, rzecz jasna)?

Są różne bazy danych…

W projektach grantów z zakresu nauk przyrodniczych NCN wymaga informacji o liczbie cytowań, bez autocytowań (nie precyzując jednak źródła) oraz o indeksie H (sic!) według WoS . Takie stawianie sprawy jest dalekie od precyzji. Preferując wskaźniki z bazy filadelfijskiej chyba nie do końca zdano sobie sprawę z tego, iż jej renoma wiąże się z istotnymi wadami.

Grzech pierworodny indeksów Garfielda to skrócony zapis cytowanej literatury (tylko pierwszy autor i bez tytułu publikacji; długie i podwójne nazwiska skracane w nieprzewidywalny sposób), co było poniekąd zrozumiałe w realiach lat 60. XX wieku. Choć obecnie ta wada jest w dużej mierze ograniczana przez coraz pełniejsze zestawy nazwisk autorów (również cytowanych prac zespołowych), to i tak do uzyskania pełnego obrazu należałoby sprawdzić „ręcznie” cytowalność książek współautorstwa danego badacza oraz innych nierejestrowanych w bazie materiałów w przypadku, gdy nie jest on pierwszym autorem. W istocie tylko posiadanie pełnego opisu bibliograficznego całego dorobku publikacyjnego danego badacza zapewnia jednoznacznie pełną identyfikację parametrów cytowalności.

Należy przy tym zwrócić uwagę na różnice w wynikach wyszukiwania dokonanych przy użyciu Web of Knowledge (właściwie Thomson Reuters Web of Knowledge ; WoK ) oraz Web of Science . W piśmiennictwie polskim czasem nazw tych używa się zamiennie, jednak jeśli przeprowadzimy wyszukanie z użyciem tego samego wyrażenia wyszukiwawczego, okazuje się, że z reguły więcej rezultatów udaje się uzyskać w WoK . Jest to tylko platforma, na której udostępniane są różne bazy danych (łatwo się o tym przekonać, klikając w zakładkę „select a database”). Dzięki polskiej ogólnokrajowej licencji akademickiej możemy za pomocą tej platformy przeszukiwać jednocześnie bazy: WoS oraz Medline (a nadto Journal Citation Reports , posiadający osobny interfejs wyszukiwawczy). Jednakże analiza raportu cytowań, który można wygenerować dla dowolnego zbioru wyszukanych (za pomocą WoK ) danych, ukazuje, że czytelnik otrzymuje dane pochodzące w sumie z 3 banków cytowań, a mianowicie: WoS (złożonej z 7 baz, w tym od niedawna Book Citation Index ), Biosis Citation Index oraz Chinese Science Citation Index . Oczywiście w przypadku dwóch ostatnich baz mamy do czynienia tylko z danymi liczbowymi. Nie ma możliwości przeglądnięcia rekordów źródłowych.

Elitarność tego banku cytowań została niedawno mocno nadwątlona przez włączenie 700 czasopism regionalnych, w tym wielu tytułów polskojęzycznych. Mimo to wciąż jest on zdominowany przez literaturę anglosaską i dlatego przewaga bardziej kosmopolitycznego i większego pod względem liczby rejestrowanych czasopism Scopusa w tym względzie jest niewątpliwa. W końcu chodzi o reprezentatywne odzwierciedlenie roli w całym obszarze światowej aktywności badawczej, a im większy zbiór danych, tym zawsze lepiej dla statystyk. Dla porównania: w 2011 r. w WoS zarejestrowano 2.043.488 publikacji (z tego 25.914 prac z afiliacją do polskich instytucji), a w tym samym roku w Scopusie – 2.341.086 (w tym 30.038 z Polski).

Scopus rejestruje ponadto pełne tytuły cytowanych prac i umożliwia eliminację udziału samocytowań – i to nawet we wskaźniku h (takiej możliwości nie mają inne bazy). Ale… istotną wadą jest wciąż wyrywkowość indeksowania, a więc obecność zupełnie przypadkowych roczników przed 1996 r. (a to jest automatycznie uwzględniane we wskaźnikach bazowych, ale ograniczonych do danych po 1995 r.). W przypadku dużych zespołów autorskich zdarza się, że część nazwisk jest pomijana. Również rejestracja współczesnych roczników obfituje w przypadki dwuletnich zaległości.

GS uwzględniają co prawda pełne spektrum źródeł obecnych w sieci. Choć jest zdecydowanie największym źródłem danych, uzyskiwane statystyki zawierają wiele istotnych błędów:

dane o cytowaniach pochodzą z materiałów niepodlegających żadnej ocenie (różnej jakości publikacje konferencyjne, prace seminaryjne i raporty wewnętrzne bez żadnych cytowań są pokazywane na równych prawach z publikacjami recenzowanymi); jeśli dany tekst został zamieszczony w sieci na kilku stronach (np. w uczelnianym repozytorium i stronie domowej uczonego), wówczas dane mogą zostać zawyżone; GS obejmuje w istocie tylko część internetowych zasobów, najbardziej dotkliwy w tym względzie brak dotyczy płatnych zamkniętych baz danych (zwłaszcza z nauk humanistycznych i społecznych); nie są odsiewane autocytowania; mała reprezentatywność starszych publikacji; automatyczne przetwarzanie danych może prowadzić do przypadkowych błędów; GS jest aktualizowany rzadziej niż bazy danych, przy czym dane te są „ustalane automatycznie przez program komputerowy”.

Publish or Perish , w porównaniu z GS (zakładka „Cytowania moich prac”; http://scholar.google.pl/citations?hl=pl), daje wskaźniki pełniejsze (o ponad 10 proc. w przypadku współautora niniejszego tekstu).

Czego chcą decydenci?

Chociaż do miarodajnych statystyk bibliometrycznych potrzebne są jak najbardziej precyzyjne dane, to o istotnym znaczeniu ewaluacyjnym tego typu parametrów można mówić dopiero przy dużych zbiorach danych i ich bardzo wyraźnym zróżnicowaniu, np. o rząd wielkości w przypadku cytowań. Dla modnego indeksu h M. Kuś ze współautorami („Sprawy Nauki” nr 3, 2009) sugerują trzykrotne różnice jako „mocną przesłankę” w ocenie kandydatów na stanowisko profesora. Autorzy ci kładą też nacisk na inną, często i czasem celowo zapominaną prawdę: „aby w ogóle porównywać dane bibliometryczne naukowców pracujących w różnych dziedzinach wiedzy czy dwóch instytutów naukowych o różnej wielkości, należy starannie dobrać sposób skalowania danych i porównywać dopiero wartości odpowiednio przeskalowane”. Można dodać jeszcze jedną zasadę: ponieważ wysokość wskaźnika h zależy od długotrwałości kariery, powinien on być w pewnym stopniu normalizowany dla badaczy o różnym wieku (jak to ma miejsce w konkursie NCN Opus) przez liczbę lat (H.A. Abt, 2012, Scientometric s, vol. 91, s. 863-868) od roku ukazania się pierwszej zarejestrowanej publikacji (wskaźniki bazowe) lub pierwszej zacytowanej pracy (wskaźniki kompletne) danego autora.

Jeśli decydenci chcieliby istotnie znać rzetelne dane o cytowaniach wszystkich publikacji, to powinni się liczyć z bardziej czasochłonnymi procedurami tworzenia raportów cytowań i obliczania wskaźnika h . W świetle przedstawionych powyżej ograniczeń poszczególnych baz cytowań istotne wydaje się nie tylko wprowadzenie jednolitej terminologii, ale też – co ważniejsze – wybór źródła danych do każdej dyscypliny. Tylko wymóg wyliczenia danych z jednej bazy i zgodnie z tą samą metodyką pozwoli na uzyskanie porównywalnych danych i stanie się miarodajnym elementem oceny. Takie precyzyjne sformułowanie przez decydentów z KEJN i NCN oczekiwań co do dostarczonych informacji zapobiegnie manipulacjom i różnym interpretacjom zapisów. Na razie wnioskodawcy mają z tym poważny problem i nawet odpowiednie FAQ na stronie NCN-u nie daje jednoznacznych wyjaśnień.

Z potrzeby połączenia szybkiej i powszechnej „dostawy” wskaźników naukometrycznych z ich wiarygodnością (w tej sytuacji oczywiście mniej lub bardziej przybliżoną), można poczynić rekomendacje zróżnicowanego wykorzystania baz i wariantów parametrów:

W dziedzinach „frontowych” nauki XXI wieku (biomedycyna, fizyka, chemia), bogato reprezentowanych w indeksach cytowań, dane bazowe z WoS są wystarczająco dokładne (z błędem kilkuprocentowym). Ale należy sugerować używanie tylko wskaźników zredukowanych, dla wyeliminowania efektu „spółdzielni”: wzajemnie dopisujących i cytujących się zespołów współautorów, których liczba przy jednej publikacji już często przekracza 100. Decydenci powinni mieć zatem świadomość, iż ewaluacja oparta na „surowych” wskaźnikach niezredukowanych jest połączona z dodatkowym premiowaniem dużej aktywności publikacyjnej.

W innych dziedzinach nauk przyrodniczych i ścisłych, mniej (dla autorów prac tylko po 1995 r.) lub bardziej (dla tych starszych) konieczne już jest stosowanie parametrów kompletnych, wyliczanych z jak największych i najbardziej kosmopolitycznych baz danych – w tym przypadku Scopusa .

Jak to już dobitnie przedstawił G. Gorzelak, a my potwierdzamy kolejnymi przykładami, mimo wielu słabości Google Scholar są – w polskich realiach – najbardziej reprezentatywną aproksymacją danych o cytowalności z obszaru nauk społeczno-humanistycznych. Rzeczjasna, będą to jedynie wskaźniki niezredukowane.

Parametr	Web of Science	Scopus	Google Scholar/ Publish or Perish
Liczba cytowań Cb	+ (a) Author w Search lub (b) Author Finder Create Citation Report	+ 1. (a) Authors w Document search lub (b) Author Search 2. View Citation overview	–
Liczba cytowań Cb_s	+ Create Citation Report	+ View Citation overview	–
Liczba cytowań Cn	* Cited Reference Index (wynik wyszukania z Cited Reference Search)	* 1. View Citation overview 2. View secondary documents	[+]
Liczba cytowań Cn_z	[*] Cn_s = Cn x (Cb/Cb_s)	[*] Cn_s = Cn x (Cb/Cb_s)	–
Index hb	+ Create Citation Report	+ View Citation overview	–
Index hb_z	–	+ View Citation overview	–
Index hn	* Cited Reference Index (wynik wyszukania z Cited Reference Search)	+ 1. View Citation overview 2. View secondary documents	[+]
Index hn_z	[*] hn_z = hn x (hb/hb_s)	[*] hn_z = hn x (hb/hb_s)	–

Porównanie baz danych pod względem możliwości szybkiego wyszukania/wyliczenia wskaźników cytowań (C – liczba cytowań, h – wskaźnik Hirscha) dla poszczególnych naukowców:

b – dane TYLKO dla publikacji zarejestrowanych w bazie danych (bazowe dane niezredukowane);

b_z – ww. dane po odliczeniu samocytowań (bazowe dane zredukowane);

n – dane dla WSZYSTKICH publikacji (kompletne dane niezredukowane);

n_z – ww. dane po odliczeniu samocytowań (kompletne dane zredukowane)l

+ możliwość szybkiego wyszukania; [+] możliwość przybliżonego szybkiego wyszukania;

* możliwość szybkiego obliczenia, [*] możliwość przybliżonego obliczenia, – brak możliwości.

Dokładniejsze informacje na temat procedur wyszukiwania i obliczania wskaźników bibliometrycznych są zawarte w instruktażowej prezentacji do uzyskania od współautorki artykułu (anetadr@gmail.com).

Parametr	Web of Science *(Web of Knowledge)*	Scopus	Publish or Perish
WSKAŹNIKI BAZOWE (= DANE WYSZUKIWANE)
Liczba indeksowanych prac	1 – 56(57) 2 – 11(11) 3 – 210*	1 – 91 2 – 5 3 – 204*	1 – “182” 2 – “267” 3 – ?*
Liczba cytowań Cb	1– 775 (835) 2 – 7 (7) 3 – 4560 (4741)	1 – 1295 2 – 18 3 – 4707	1 – 1581 2 – 1958 3 – 7281*
Liczba cytowań Cb_z	1 – 663 (723) 2 – 7 (7) 3 – 3150 (3283)	1 – 979 2 – 18 3 – 3879	-
Index hb	1 – 15 (16) 2 – 2 (2) 3 – 38 (40)	1 – 21 2 – 2 3 – 39	1 – 20 2 – 17 3 – 46*
Index hb_z	-	1 – 18 2 – 2 3 – 34	-
WSKAŹNIKI KOMPLETNE (= DANE WYLICZANE)
Liczba cytowań Cn	1 – 1232 2 – 478 3 – ?*	1 – 1673 2 – 312 3 – 4783*	-
Liczba cytowań Cn_z	1 – 1054 2 – 476 3 – ?*	1 – 1271 2 – 312 3 – 3922	-
Index hn	1 – 18 2 – 9 3 – ?*	1 – 21 2 – 6 3 – 39	-
Index hn_z	-	1 – 18 2 – 6 3 – 34	-
Maksymalna liczba cytowań 1. pracy C_max	1 – 81 (87) 2 – 100 (?) 3 – 245 (243)	1 – 102 2 – 103 3 – 247	1 – 90 2 – 335 3 – 311

Wskaźniki cytowań polskich badaczy z różnych dyscyplin (stan na koniec listopada 2012 r.), wyszukiwane i wyliczane w różnych bazach danych: 1 – Racki G. (nauki o Ziemi – geologia), 2 – Balcerowicz L. (nauki ekonomiczne), 3 – Kaczmarek L. (nauki biologiczne – biologia molekularna).

*Ze względu na popularne nazwisko, brak możliwości szybkiego wyodrębnienia danych. Dla Cb i hb wykorzystano dane z profilu użytkownika w Google Scholar. Dla danych bazowych wyszukiwanie zostały ograniczone do afiliacji: Instytut Biologii Doświadczalnej im. M. Nenckiego PAN. W przypadku Cn w Scopusie dodano 76 cytowań do „secondary documents” z zakresu biochemii i neurobiologii.

Prof. dr hab. Grzegorz Racki, geolog, pracownik Wydziału Nauk o Ziemi Uniwersytetu Śląskiego.

Dr Aneta Drabek, kustosz dyplomowany, Biblioteka Uniwersytetu Śląskiego.