Statystyczne manowce i straszydła

Julian Daszkowski

Jestem psychologiem, a nie matematykiem, choć matematyki się nie boję i używam jej wtedy, gdy jej potrzebuję. W pracy zawodowej miałem do czynienia nie tylko ze studentami i naukowcami własnej specjalizacji, lecz także z naukowcami i praktykami innych specjalizacji (prawnikami, urzędnikami, członkami rad nadzorczych), a co więcej, z ludźmi o wykształceniu poniżej średniego (o tym nieco dalej). Stopniowo się przekonywałem, że to, co dla mnie jest statystycznie oczywiste i niedwuznaczne, bywa powszechnie rozumiane w bardzo pokręcony sposób.

Dezinterpretacje pojęć statystycznych

Pokrętność polegała na tym, że w komunikowaniu się z wykształconymi osobami powstawały pozory przyjęcia i stosowania statystycznych pojęć oraz wniosków, ale w późniejszym praktycznym ich wykorzystywaniu nabierały one zupełnie innego charakteru, mimo uporczywych zapewnień o zachowaniu istoty ich treści. Przykład: gdy w zamówionej analizie użyłem sformułowania, że rozkład wynagrodzeń nie jest rozkładem normalnym, a raczej lognormalnym, to ze zdumieniem zobaczyłem potem, że jednym z celów zarządczych (zaakceptowanych przez kilku członków rady nadzorczej i przyjętym przez kilkuosobowe kierownictwo) stała się normalizacja rozkładu wynagrodzeń, i to z powołaniem się na jakoby moją rekomendację.

Osoby bez wykształcenia zajmowały się pojęciami i wnioskami statystycznymi tylko wtedy, gdy nadawano im jakąś konkretną formę (np. bardzo prostego wykresu), z bezpośrednim odniesieniem do tego, co oceniały jako osobiście ważne. Anegdotycznie: gdy bardzo dawno temu przedstawiłem wartość średniego wynagrodzenia w branży (najniższe), w rejonie (najwyższe) i w kraju, to reprezentanci pracowników domagali się, aby wszyscy otrzymali wynagrodzenie wyższe od najwyższej z prezentowanych średnich. Wynikało to ze specyficznego rozumienia pojęcia średniego wynagrodzenia, a cała afera wygasła po zrezygnowaniu z powoływania się na średnie i zastąpieniu ich prezentacją zróżnicowania według miar pozycyjnych. W sieciowych komentarzach to specyficzne rozumienie średniej przejawia się jako kwestionowanie rzetelności statystycznych wyliczeń, bo „ja i moi znajomi zarabiają poniżej średniej” lub kwestionowaniu samego pojęcia („policjant z psem mają średnio po trzy nogi”).

W toku moich doświadczeń spotykałem się z wykresami, które są charakterystyczne tylko dla jednej dziedziny i nie występują poza nią (np. wykresy fazowe w termodynamice i jej zastosowaniach) oraz z takimi, które przy pozornym podobieństwie służą do zupełnie innych interpretacji (np. w ekonomii dodatkowo żąda się wyobrażeniowego przesuwania linii obrazujących jakąś zależność). W szczególności zawsze było mi trudno zrozumieć, dlaczego psychologowie i ekonomiści tak beztrosko uważają, że relacje między wyidealizowanymi agregatami z wykresów (np. średnimi lub liniami trendów, choćby i nieliniowych) wystarczająco trafnie odzwierciedlają relacje między pojedynczymi elementami. Oczywiście zdaję sobie sprawę z tego, że współczynniki korelacji między agregatami są zawsze większe niż między pojedynczymi elementami, a różnice między agregatami zawsze są bardziej wyraziste, ale moje uwagi o powodowaniu przez to przesady w ocenie siły rzeczywistych związków traktowano jako brak zrozumienia istoty rzeczy.

Kompulsywność statystyczna

Choć wydaje się to niewiarygodne, to w środowisku ekonomistów akademickich testy istotności statystycznej bez oporów często stosuje się do prób nielosowych (tzw. listy 100 czy 500 największych przedsiębiorstw itp.) oraz do całych populacji, nie mówiąc już o nierandomizowanych próbach incydentalnych (zwróciłam/em się do 30, odpowiedziało 9 z dwu branż). Drobnym zmianom lub różnicom przypisuje się wtedy merytoryczne znaczenie, aczkolwiek wyraźnie mają one charakter losowych fluktuacji, ukrytych przez artefakt niewłaściwie zastosowanej metody.

Od ekonomistów wyraźnie separują się ekonometrycy, których opracowania są zwykle matematycznie nienaganne i praktycznie nieużyteczne. Zgodność zbioru danych z arbitralnym modelem nie miewa przełożenia nie tylko na możliwe do realizacji dyrektywy praktyczne, lecz także ich poznawcza wartość nie wykracza poza sam model.

W każdym wszakże przypadku zwykle pojawia się argument: przecież wszyscy tak właśnie robią, a więc tak powinno to być robione. Co więcej, gdy jakiś „autorytet” ex cathedra (np. z mównicy sejmowej lub w rozpowszechnionym podręczniku) poda jakieś słowne oceny lub dane liczbowe, to potem bywają one bezkrytycznie powtarzane nawet w pracach doktorskich i habilitacyjnych, choć bardzo proste i mało pracochłonne może być sprawdzenie ich rzetelności. A ujawnienie nierzetelności takich danych robi wrogów z niemal wszystkich, którzy wbrew własnym deklaracjom zaniechali sprawdzenia.

Niedobre początki

Studenci są skrzyżowaniem wykształceniowych aspiracji z dziecinną ignorancją, ale nie tyle nie chcą tego uznać, ile po prostu uważają, że nie o to chodzi. Z mojego punktu widzenia jest to wynik zmian na gorsze w ostatnich trzydziestu latach. Gdy rozpoczynałem dydaktykę akademicką, to wszystkie osoby, z którymi miałem do czynienia, zdały maturalny egzamin z matematyki. Wiele z nich nie lubiło matematyki i nie chciało mieć z nią do czynienia, ale miało poczucie, że gdy będą musiały się z nią borykać, to mogą dać radę. Dodatkowo na sporej części kierunków obowiązywał egzamin wstępny z matematyki, a więc poczucie możliwości dania sobie rady z matematyką nie jeden raz, było powszechne i nie tworzyło społecznego usprawiedliwienia, a co najwyżej współczucie dla matematycznych niepowodzeń.

Potem przez wiele lat miałem do czynienia ze studentami, którzy nie zdawali matury z matematyki, bo nie chcieli i nie musieli tego robić, a często także ani nie musieli zdawać z niej egzaminu wstępnego, ani poważnie powoływać się na żaden jej uprzedni egzaminacyjny wynik (prawo, administracja, psychologia, politologia, zarządzanie). Programowe zajęcia z elementów matematyki z ich grupowo podzielanego punktu widzenia nabierały charakteru mobbingu, a z punktu widzenia profesjonalnego obserwatora zewnętrznego – jeżeli nie farsy, to gry pozorów.

Gdy na początku wykładu z psychologii społecznej pytałem ponadstuosobowe audytoria, kto zdawał maturę z matematyki, to nigdy nie podniosło się więcej niż pięć rąk, a bywało, że nie podniosła się żadna. Jednak trzeba było wyjaśniać, na czym polega statystyczny charakter praw i efektów psychologicznych, bez dopuszczania do wniosków, że w psychologii to nic nie wiadomo i wskutek tego wszystko, co się powie, może być prawdą.

Jałowe wysiłki

Próbowałem wywoływać wśród audytorium efekty opisywane w podręcznikach i zwracałem uwagę na stosunek ich zróżnicowania do uporządkowania (np. zgodność z podręcznikiem wywołanych wyobrażeń o stosunku liczby zabójstw do samobójstw). Coraz wyraźniej przekonywałem się przy tym, że studenci chętnie słuchają o tym, jak nieracjonalni są inni, ale nie lubią wykazywania, że wcale nie są racjonalniejsi od innych.

Matematyczno-statystycznym koszmarem nie tylko dla prowadzącego, lecz także dla uczestników stawały się potem zajęcia z analizy i kształtowania motywacyjnych systemów płacowych. Można było albo mówić swoje bez zwracania uwagi na audytorium, albo dostosowywać się do jego oczekiwań: „tylko bez tej statystyki”. W pierwszym przypadku właściwie wszyscy powinni oblewać we wszystkich terminach, a w drugim sam przedmiot miałby sens tylko na kierunkach politologiczno-dziennikarskich.

Cała powyższa analiza nabiera wyrazistości po doświadczeniach z kierunkami, o których wiadomo, że wymagają matematyki. Studenci wtedy wiedzą, że mogą i muszą się borykać z matematyką, ale albo nie umieją, albo nie chcą jej zastosować do czegoś, do czego ich zdaniem się nie nadaje, a jeżeli już to robią, to w przeraźliwie formalistyczny sposób – jeśli już użyją matematyki, to ograniczają się do matematycznych interpretacji.

Pozorne rezultaty

Mam więc wrażenie, że wśród pokoleń do czterdziestego roku życia powstały i utrwaliły się kulturowo-motywacyjne struktury, których nie daje się przełamać żadną indywidualną działalnością dydaktyczną. Jednocześnie inne obserwacje wskazują, że zwiększone i bardziej zróżnicowane wymagania mogą być kierowane tylko do takiej mniejszości, która zgodzi się poddać procesowi bezwzględnej selekcji, bez dopuszczania do ściągania, nepotyzmu, zaświadczeń o dysleksji lub innej niepełnosprawności. Nie chodzi w tym o selekcję według zdolności, ale o selekcję według gotowości do wysiłku w spełnianiu merytorycznych kryteriów dla realizowania własnych aspiracji. I tutaj pewną rolę pełni średnia wcześniejszych ocen ze wszystkich przedmiotów. Nie wskazuje ona zadowalająco ani na poziom zdolności, ani umiejętności, ale jest dość dobrym wskaźnikiem osobistej konsekwencji w przystosowywaniu się do zewnętrznych i różnorodnych wymagań.

Trafiałem też, ale coraz rzadziej, na studentki i studentów, którzy sami bywali zdumieni swoimi osiągnięciami po zapiekłych próbach wykazania mi, że moje wymagania są niemożliwe do spełnienia lub wręcz idiotyczne. Ich komentarze podkreślały, że nikt do tej pory nie zmusił ich do takiego wysiłku, a przecież zmusili się sami, bo mogli zrobić tak, jak większość ich koleżanek i kolegów z ich grup – minimalnym wysiłkiem wykazać się zgodnością z minimum zaliczeniowych wymagań. Jednak na takich przypadkach nie da się oprzeć masowej dydaktyki akademickiej.

Poważne społeczne niebezpieczeństwo może powstać z interakcji między aplikacjami komputerowymi a niedokształconymi absolwentami. Łatwość otrzymania wyniku zautomatyzowanego wykonania bardzo skomplikowanych przekształceń nie jest tożsama z prostotą założeń i jednoznacznością interpretacji. Np. w amerykańskiej literaturze wraz z pojawieniem się komputerowych aplikacji statystycznych jako rewelacyjne spostrzeżenia zaczęto zamieszczać interpretacje, które są oczywiste dla uczących się „przedkomputerowej” statystyki i nie muszą być dodatkowo podkreślane (np. że sama istotność statystyczna nie pokazuje siły efektu, że wysoka korelacja nie musi świadczyć o przyczynowości itd.). W odniesieniu do polskiej literatury o wykresach, nie zawsze też zwraca się uwagę na to, że już w pierwszej połowie XX wieku uchodziły one za oczywistą oraz integralną część prezentacji naukowych, a o ich wadach, zaletach i potencjalnych zniekształceniach od dawna informowano w podstawowych podręcznikach dziedzinowych (np. Biegeleisen B., Metody statystyczne w psychologii , Kraków 1935) czy ogólnych (Yule G., Wstęp do teorji statystyki z 53 figurami i diagramami , Warszawa 1921).

Długofalowe problemy

W każdym razie obraz sytuacji problemowej jest następujący: formalne wykształcenie uzyskują ludzie, wśród których zbyt znaczny odsetek faktycznie nie posiada przypisywanych im i oczekiwanych od nich kompetencji, a jednocześnie wszyscy, bez względu na swoje rzeczywiste kompetencje, są w stanie dostarczyć intelektualne rezultaty, kiedyś dostępne tylko dla ludzi z rzeczywistymi kwalifikacjami. Poprzednio było jasne, że ten, kto wypracował intelektualny rezultat, dokładnie zna jego ograniczenia i zastosowania, a więc raczej można polegać na jego opiniach i propozycjach. Dzisiaj formalnie poprawny rezultat w aplikacji komputerowej może wypracować byle kto z niemal byle czego lub po prostu ściągnąć z sieci.

Nawet dla samego edytora tekstu w komputerze opisywałem już zdumiewająco rozpowszechnioną niekompetencję kończących kształcenie użytkowników przy pozorach prawidłowości wydruku (FA 6/2015). „Ściąganie z sieci”, czyli w najłagodniejszym sformułowaniu „brak staranności w wyszukiwaniu i cytowaniu źródeł”, a we właściwym „plagiatowanie”, w społecznym odbiorze zbliżyło się do oceniania alkoholizmu – z lekkim i bezradnym uśmiechem potępia się u obcych, ukrywa się natomiast u siebie i u swoich.

Dla funkcjonowania struktur społecznych na poziomie wyższym niż rodzina, a więc struktur sąsiedzkich, administracyjnych, kulturowych, gospodarczych, a nawet politycznych, poleganie na formalnych kompetencjach ludzi może się zatem okazać niewystarczające lub wręcz szkodliwe jeszcze bardziej niż dziś. Wśród rozmaitych dodatkowych zabezpieczeń lub upewnień, pozytywną rolę mogą odgrywać oczekiwania i żądania przedstawiania istniejących i projektowanych stanów rzeczy w sposób intelektualnie dostępny dla nieprofesjonalistów. Kiedyś, w nieco innym celu nazywało się to popularyzacją, dzisiaj można by to określić jako dodatkowe, bezwzględne i obowiązkowe tworzenie każdemu szans na sprawdzenie potencjalnego zróżnicowania założeń, procedur i efektów.

Nikłe nadzieje

Niedobrym prognostykiem, niestety, jest przypadek biurokracji polityczno-naukowej. Forma żądanych przez nią dezyderatów, projektów, planów, sprawozdań czy recenzji wydaje się mieć bardzo mało wspólnego z merytorycznymi problemami, bo ujawniane kryteria oceniania nie ich dotyczą, lecz haseł tworzących glebę dla uprawiania w nauce polityki organizacyjno-kadrowej i finansowej. Niech biurokraci i politycy prowadzą programowanie i kontrole po swojemu, ale brak wiarygodności kompetencji u każdego, kto głosi ich posiadanie, wymaga dodatkowych sprawdzianów.

W niektórych aplikacjach komputerowych nie można wykonać żądanych procedur bez uprzedniego, i to bardzo szczegółowego, zadeklarowania zgodności wprowadzanych danych z merytorycznymi, a nie tylko formalnymi wymaganiami procesu. Procedury takie do wyniku dołączają rodzaj raportów o postaci danych przed przetworzeniem, zmianach na kluczowych etapach przetwarzania, kolejnych ograniczeniach lub wzbogaceniach przez to spowodowanych i w końcu – o interpretacyjnych możliwościach i niemożliwościach rezultatu. Przybiera to formę wstępnych, przejściowych i końcowych list kontrolnych, w których trzeba wykonawczo reagować na ich każdy kolejny element. Dodatkiem bywają serie wykresów czy diagramów, przedstawiających etapy procesu w różnych aspektach i z różnych punktów widzenia.

Dla rzeczywiście wykwalifikowanego specjalisty jest to nie tylko niepotrzebne i nużące, lecz także irytujące. Wszystkie potrzebne i tylko potrzebne rezultaty powinny się według niego pojawić od razu w możliwie skondensowanej formie, a jak będzie czegoś dodatkowo oczekiwał, to bez trudu to zaprogramuje. Jednak bez prowadzenia krok po kroku nie zrobi tego specjalista pozorny, wynajdujący liczne trudności i wielu przeszkadzających na jego samodzielnej drodze do wymęczonego, zwykle opóźnionego i jakościowo podejrzanego skutku. Popularne stają się więc aplikacje, które nie stawiają „przesadnych” warunków i tym samym umożliwiają bezrefleksyjne młócenie danych. Nie jest to ich wadą, bo w razie rozumnego wykorzystywania są bardzo użyteczne, ale bez tego pozostają rodzajem brzytwy w ręku szaleńca. A stwierdzenie „komputer wykazał”, każdego wątpiącego lub krytyka stawia w trudnym położeniu: dlaczego atakuje się osobę, gdy odpowiedzialny jest komputer?

Dr Julian Daszkowski jest specjalistą w zakresie społecznych problemów zarządzania i zarządzania zasobami ludzkimi.