Niedoceniana wartość baz

Przemysław Śleszyński

Nie ma chyba tematu, który by wzbudzał tyle emocji i kontrowersji w nauce polskiej w ostatnich latach, co ocena bibliometryczna różnych osiągnięć. Jest to wytłumaczalne, a nawet zrozumiałe z różnorakich powodów. Po pierwsze, w ostatniej dekadzie w Polsce (ale i na świecie) intensywnie wdrażane są metody oceny jakości badań, a najłatwiej (czasami nawet najleniwiej) jest to kwantyfikować na podstawie indeksów cytowań. Robi się tak w celu różnicowania finansowania (jednostek organizacyjnych, czasopism, grantów), a zatem sposoby oceny dotyczą najżywotniejszych spraw instytucjonalnych. Po drugie, w nauce i prawdopodobnie w większości innych dziedzin życia istotna jest psychologiczno-społeczna kwestia uznania osiągnięć, działalności, prestiżu, gdyż jest to zwykle bardzo silnym motorem ludzkich działań. Po trzecie, wraz z rewolucją informatyczną naukowcy i urzędnicy otrzymali mniej lub bardziej wyrafinowane narzędzia komputerowo-internetowe pozwalające zwykle szybko i efektywnie analizować różne bazy bibliograficzne, budowane zresztą m.in. w tym właśnie celu. Wymienione uwarunkowania i czynniki sprawiają, że znanych jest już kilkanaście międzynarodowych czasopism zajmujących się wyłącznie naukometrią (scjentometrią).

Trzy sposoby

Zapoznając się z kilkudziesięcioma artykułami na temat indeksów cytowań, opublikowanymi w Polsce w ostatnich kilku latach (dość wyczerpująca baza jest na stronie http://wwwnew1.bg.us.edu.pl/arton_inf/bibliografia.htm, prowadzonej przez Bibliotekę UŚ), nie natrafiłem zasadniczo na żaden, który nie dotyczyłby problemu oceny jakości badań i porównywania między sobą autorów, artykułów i instytucji (w postaci różnego rodzaju rankingów i wskaźników). Jak się wydaje, nie jest to jedyne zastosowanie wskaźników bibliometrycznych. W niniejszym artykule chciałbym zwrócić uwagę na niedocenianą wartość baz bibliometrycznych i indeksów cytowań, związaną z możliwościami analizy poszczególnych dyscyplin i dziedzin nauki pod względem cech lub prawidłowości ich wewnętrznej struktury osobowo-instytucjonalnej, bez konieczności orzekania, która dziedzina jest lepsza lub gorsza.

Najogólniej można przyjąć, że możliwe są trzy przedmiotowe sposoby przeprowadzenia badań cytowalności, opierające się na założeniu, że pracę naukową w danej dyscyplinie lub dziedzinie publikuje 1) autor reprezentujący 2) instytucję, w której jest afiliowany, poprzez określony 3) nośnik informacyjny (wydawnictwo, np. czasopismo). Proces publikacji zachodzi wreszcie w określonej czasoprzestrzeni, tj. praca ma swój rok i fizyczne miejsce wydania (kraj, miejscowość). To ostatnie jest coraz bardziej nieprecyzyjne lub niejednoznaczne ze względu na rozwój Internetu.

Przeanalizowałem wyniki obliczeń indeksu Hirscha dla 854 osób z 25 komitetów naukowych PAN (przy tym około 30 osób występuje w różnych komitetach jednocześnie, tj. w całym zbiorze dwa lub więcej razy), skupiających przedstawicieli szeroko rozumianych nauk „przestrzennych” i pokrewnych w aspekcie przyrodniczym i społeczno-ekonomicznym, takich jak m.in. geografia, geologia, ekologia, ekonomia oraz socjologia. Dane te przygotowałem wspólnie z prof. Grzegorzem Gorzelakiem, który wspomniany wyżej aspekt porównywalności i oceny dorobku poszczególnych dyscyplin naukowych oraz uczonych miał okazję przedstawić we wrześniu 2012 r. w „Polityce”. Część żmudnego zbierania danych (w ogólnodostępnym programie Publish & Perish) dokonały też panie Barbara Jaworska i Beata Zielińska, za co pragnę podziękować.

Zanim przejdziemy do właściwych analiz, najpierw trzeba ocenić reprezentatywność komitetów dla poszczególnych obszarów nauki. Z jednej strony, wyłanianie komitetów naukowych PAN przeprowadzane jest za pomocą podobnej procedury, co powinno zapewniać dosyć zbieżny dobór naukowców, jeżeli zakładać, że różne środowiska w miarę podobnie podchodzą do głosowania na swoich przedstawicieli, kierując się przede wszystkim poczuciem wartości merytorycznej, a nie innymi czynnikami. Z drugiej strony procedura zakłada inne sposoby znalezienia się w składach komitetów, w tym przez samowskazanie przez członków rzeczywistych i korespondentów PAN, wskazanie przez różne gremia oraz jednoosobowo przez np. dziekana wydziału lub prezesa Akademii w ramach komitetów problemowych. Równocześnie różna jest reprezentacja naukowców, są komitety i obszary wiedzy skupiające różną liczbę naukowców, w tym posiadających czynne i bierne prawo wyborcze tzw. samodzielnych pracowników naukowych. W sumie sprawia to, że komitety naukowe PAN nie muszą być ściśle reprezentatywne pod względem osiągnięć w danym obszarze wiedzy, czyli że przekrój cytowań członków tych komitetów nie musi być ekwiwalentny w stosunku do wszystkich cytowań w danej dziedzinie w kraju.

Cztery typy

Mając na uwadze powyższe zastrzeżenia, w tabeli 1 zestawiono podstawowe informacje bibliometryczne, związane z komitetami i indeksem Hirscha (h ). Z jednej strony podano dane dotyczące osób-członków komitetów, takie jak minimalny i maksymalny h w danym komitecie, średnia, mediana oraz odchylenie standardowe. Ponadto obliczono indeks h dla komitetów w ten sposób, że prace zastąpiono naukowcami i ich indywidualnymi h . A zatem indeks h dla danego komitetu informuje, ile w nim osób osiągnęło daną liczbę cytowań lub więcej. Np. w Komitecie Nauk Geograficznych h = 10 oznacza, że na 34 osoby 10 osób miało indywidualny indeks Hirscha, obliczony na podstawie cytowań prac, równy 10 lub więcej.

Dane z tabeli pokazują wielką różnorodność wskaźników. Generalnie komitety bardziej „przyrodnicze” mają zauważalnie wyższe wartości wskaźników, ale są wyjątki. Duże rozrzuty danych wskazują też na trudną lub niemożliwą porównywalność tych wskaźników pomiędzy różnymi komitetami – jest to sprawa znana, wielokrotnie podnoszona, niewymagająca komentarza. Dodatkowe porównania pokazują też następujące prawidłowości: zaproponowany indeks h dla komitetu jest wprost proporcjonalny do uśrednionego h (korelacja liniowa przy r2 = 0,83) i mediany (r2 = 0,87), ale już w przypadku odchylenia standardowego nie jest to oczywiste (r2 = 0,25). Czyli że im mniejsze różnice indeksu h w komitecie, tym szanse na jego ogólne oddziaływanie są wyższe.

Następnie dla każdego komitetu wyrysowano wykresy obrazujące rozkład indywidualnych indeksów h dla poszczególnych jego członków (ryc. 1). Rozkłady te można analizować w mniej lub bardziej wyrafinowany matematycznie i statystycznie sposób, tutaj zwróćmy jedynie uwagę na podstawowe prawidłowości, mogące być pomocnymi w scharakteryzowaniu poszczególnych dyscyplin naukowych i obszarów działalności. W zależności od rozkładu i rozrzutu punktów, na pierwszy rzut oka komitety PAN można podzielić generalnie na cztery typy.

1. Komitet z wyraźnym liderem. Charakteryzuje się dużym odstępem wartości indeksu h pomiędzy pierwszą pod tym względem osobą a pozostałymi członkami komitetu. Jest to najczęstszy typ, bowiem reprezentuje go aż 12 spośród branych pod uwagę 25 komitetów PAN (np. Badań Czwartorzędu, Inżynierii Środowiska, Socjologii, Nauk Geograficznych, Nauk Leśnych).

2. Komitet z równomiernym liniowym spadkiem. Uszeregowane od największej do najmniejszej wartości indeksu h spadają dość jednostajnie, zgodnie z funkcją liniową. Typ ten można przypisać zwłaszcza do Komitetu Geofizyki PAN oraz Komitetu Ekonomii Rolnictwa i Rozwoju Obszarów Wiejskich PAN.

3. Komitet z nierównomiernym „wklęsłym” spadkiem. Cechuje się zmniejszaniem wartości indeksu h zgodnie z modelem wykładniczym, czyli że najszybszy spadek występuje wśród naukowców z najwyższym h , a następnie ulega to spowolnieniu. Jest to dosyć częsty typ, spotykany m.in. w przypadku Komitetu Nauk Geologicznych PAN, Komitetu Gospodarki Wodnej PAN czy Komitetu Przestrzennego Zagospodarowania Kraju PAN. Warto zwrócić uwagę, że „wklęsłość” jest też na ogół charakterystyczna dla typu pierwszego, określonego jako „z wyraźnym liderem”, jeśli tego lidera pominąć na wykresie.

4. Komitet z nierównomiernym „wypukłym” spadkiem. Jest to najrzadszy typ, który co do zasady jest lustrzanym odbiciem typu „wklęsłego”. Reprezentuje go jedynie Komitet Ekologii PAN.

Ranga autorytetów

Oczywiście, powyższe typy można zapisać za pomocą języka matematycznego, dopasować funkcję, skalibrować cząstkowe parametry itd. (np. dla Komitetu Nauk Geologicznych PAN najlepiej dopasowany jest model Weibulla z r2 = 0,99), ale w niniejszym opracowaniu chodzi jedynie o zasygnalizowanie generalnych kształtów tych rozkładów. Wynika z nich, że dla różnych obszarów nauki istnieją różne prawidłowości rozkładów indeksów cytowań osób je reprezentujących. Generalnie potwierdza się też zasada, że stosunkowo mniejsza liczba osób jest odpowiedzialna za stosunkowo większą liczbę odwołań, co jest zgodne chociażby z zasadą Pareto, powszechnie występującą w zachowaniach i działalności ludzkiej.

Jednak najbardziej interesujący jest fakt, że koncentracja ta, wyrażająca się w przebiegu krzywej, jest różna. Są dyscypliny, w których wskazywać można na silną rolę pojedynczych uczonych. Zwłaszcza ten ostatni wątek warto byłoby w przyszłości rozwinąć w postaci bardziej pogłębionych analiz. Wydaje się, że analiza cytowań i różnego rodzaju indeksów z „Hirschem” na czele mogłaby wiele wyjaśnić, jeśli chodzi o wykształcanie się i oddziaływanie autorytetów. Zapewne są dziedziny w obszarze nauk społecznych i szeroko rozumianej humanistyce, gdzie z zasady częściej się powołuje na ogólne dzieła kanoniczne i ich autorów, w jakiś sposób wytyczające kierunki badań, orientacje metodologiczne itd. Podobnie jak w dziedzinach przyrodniczych liczy się zapewne bardziej cytowanie konkretnych osiągnięć i odkryć. Stąd prawdopodobnie wynika domniemany różny kształt krzywych, obrazujących rozkłady cytowań.

Ciekawe jest również, że dobór osób w komitetach naukowych bardziej odzwierciedla strukturę całej populacji naukowców pod względem cytowań, niż jest powodowany przesłankami wynikającymi wyłącznie z dorobku naukowego, mogącego być mierzonym tymi cytowaniami. W większości dziedzin można przecież bez trudu wskazać wiele osób, które legitymują się wysokim dorobkiem potwierdzonym dużą liczbą prac o częstych cytowaniach. Ale z drugiej strony może to dowodzić nie najlepszego do tych celów indeksu h , jak i ogólnie brania pod uwagę wyłącznie poziomu cytowań do oceny dorobku, prestiżu czy generalnie uznania w środowisku naukowym, będących, przynajmniej w założeniach, podstawą do wyboru na członka komitetu PAN. Tak czy inaczej, problem oceny dorobku i oddziaływania prac naukowych na podstawie baz bibliograficznych i wskaźników czysto statystycznych z pewnością będzie przedmiotem dyskusji i sporów.

Dr hab. Przemysław Śleszyński, prof. ndzw. IGiPZ, pracuje w Instytucie Geografii i Przestrzennego Zagospodarowania PAN.

Tabela 1. Wskaźniki h dla 25 komitetów PAN z przyrodniczych i społeczno-ekonomicznych nauk „przestrzennych” oraz pokrewnych według baz Google Scholar w czerwcu-lipcu 2012 r.

Komitet PAN

Liczba osób

Wskaźniki h

Indeks h
dla komitetu

naj­mniej­szy

naj­więk­szy

suma

średni

media­na

odchylenie stan­dardowe

 

Architektury i Urbanistyki

28

0

5

48

1,7

2,0

1,0

3

Badań Czwartorzędu

31

1

29

261

8,4

8,0

5,5

10

Badań nad Migracjami

35

1

23

204

5,8

4,0

4,5

9

Ekologii

38

2

23

483

12,7

12,0

5,8

15

Ekonomii Rolnictwa i Rozwoju Obszarów Wiejskich

24

2

6

91

3,8

4,0

1,3

5

Geodezji

32

1

9

123

3,8

3,0

2,2

6

Geofizyki

31

0

16

233

7,5

7,0

4,0

9

Gospodarki Wodnej

33

0

12

120

3,6

3,0

2,8

6

Inżynierii Środowiska

40

1

35

260

6,5

5,0

5,6

8

Nauk Demograficznych

36

0

22

164

4,6

3,5

4,3

6

Nauk Ekonomicznych

39

2

23

288

7,4

6,0

4,4

10

Nauk Geograficznych

34

3

29

273

8,0

6,0

4,9

10

Nauk Geologicznych

46

3

20

430

9,4

8,0

4,6

12

Nauk Leśnych

38

2

35

236

6,2

5,0

5,6

8

Nauk o Kulturze

31

1

14

138

4,4

4,0

2,6

6

Nauk o Pracy
i Polityce Społecznej

44

1

14

230

5,2

4,5

3,1

8

Nauk Organizacji i Zarządzania

45

0

16

204

4,5

4,0

2,9

6

Nauk Politycznych

30

1

9

125

4,2

3,5

2,1

6

Ochrony Przyrody

24

3

22

206

8,6

7,5

5,4

10

Prognoz „Polska 2000 Plus”

48

1

32

325

6,8

6,0

5,1

10

Przestrzennego Zagospodarowania Kraju

40

0

14

201

5,0

4,0

3,3

8

Socjologii

33

4

97

420

12,7

8,0

16,1

11

Statystyki i Ekonometrii

31

2

15

165

5,3

4,0

3,1

7

Transportu

28

0

10

66

2,4

2,0

1,9

4

Zagospodarowania
Ziem Górskich

15

1

29

83

5,5

3,0

7,0

4

Razem

854

0

97

5 377

6,3