Styl to człowiek

Joanna Kosmalska

Ustalenie autora tekstu nie jest trudne, gdy widnieje podpis, ale gdy go brak… Nowa metoda stylometrii, zaproponowana przez naukowców z Instytutu Fizyki Jądrowej PAN w Krakowie, umożliwia identyfikację autora po analizie powiązań pomiędzy zaledwie kilkunastoma wyrazami tekstu angielskiego. W językach słowiańskich do identyfikacji twórcy wystarcza nawet mniejsza liczba wyrazów, a na dodatek wynik jest pewniejszy.

Spod czyjego pióra wyszedł historyczny tekst znany we fragmentach? Kto jest autorem internetowego paszkwilu? Jak wiarygodnie stwierdzić, czy tekst pracy magisterskiej bądź doktorskiej nie jest plagiatem? Tradycyjne metody stylometryczne w wielu przypadkach zawodzą lub nie prowadzą do pewnych wniosków. Na łamach czasopisma „Information Sciences” naukowcy z Instytutu Fizyki Jądrowej Polskiej Akademii Nauk przedstawili własne narzędzie statystyczne do analizy stylometrycznej. Skonstruowane z użyciem grafów, pozwala spojrzeć na strukturę tekstów w jakościowo nowy sposób.

 – Wnioski płynące z naszych badań z jednej strony są budujące. Wskazują bowiem, że indywidualność każdej osoby przejawia się wyraźnie w sposobie używania zaskakująco małej liczby wyrazów. Ale jest i druga, ciemniejsza strona medalu. Skoro bowiem okazujemy się tak oryginalni, będzie nas można łatwiej identyfikować po wypowiedziach mówi prof. Stanisław Drożdż (IFJ PAN, Politechnika Krakowska).

Dwie krawędzie Ali i kota

Stylometria – nauka zajmująca się wyznaczaniem statystycznych charakterystyk stylu tekstów – opiera się na spostrzeżeniu, że każdy z nas nieco inaczej używa tego samego języka. Jedni mają szerszy zasób słownictwa, inni węższy, ktoś lubi stosować pewne sformułowania i popełnia błędy, ktoś inny unika powtórzeń i jest purystą językowym. A gdy piszemy, różnimy się też sposobem stosowania interpunkcji. W typowym podejściu stylometrycznym zazwyczaj bada się podstawowe cechy tekstu, np. częstotliwość występowania poszczególnych wyrazów, interpunkcję się ignoruje. Analizy są przeprowadzane na badanym tekście oraz na tekstach napisanych przez dobrze znanych autorów. Za twórcę uznaje się tę osobę, której dzieła mają parametry o wartościach najbardziej zbliżonych do otrzymanych z identyfikowanego materiału.

  Zaproponowaliśmy, żeby charakterystycznych cech stylu szukać w sieciowej reprezentacji tekstu za pomocą grafów – wyjaśnia Tomasz Stanisz, doktorant IFJ PAN i pierwszy autor publikacji, po czym precyzuje: – Graf to zbiór punktów, czyli wierzchołków grafu, połączonych liniami, czyli krawędziami grafu. W najprostszym przypadku – w tak zwanej sieci nieważonej – wierzchołki odpowiadają poszczególnym wyrazom i są połączone krawędziami wtedy i tylko wtedy, gdy dane dwa wyrazy przynajmniej raz wystąpiły w tekście obok siebie. Na przykład graf zdania „Ala ma kota” miałby trzy wierzchołki, po jednym dla każdego wyrazu, ale krawędzie byłyby tylko dwie, jedna między „Ala” i „ma”, druga między „ma” i „kota”.

Krotność węzłów i współczynnik gronowania

Podczas konstruowania narzędzi stylometrycznych badacze z IFJ PAN testowali różne rodzaje grafów. Najlepsze wyniki otrzymano w przypadku grafów ważonych, a więc takich, w których każda krawędź niesie informację o liczbie wystąpień odpowiadającego jej połączenia między wyrazami. W takich sieciach najbardziej przydatne okazały się dwa parametry: krotność węzłów i współczynnik gronowania. Pierwszy opisuje liczbę krawędzi wychodzących z danego węzła i wiąże się bezpośrednio z liczbą wystąpień danego wyrazu w tekście. Z kolei współczynnik gronowania opisuje prawdopodobieństwo tego, że dwa wyrazy połączone krawędzią z danym wyrazem są połączone krawędzią także między sobą.

Za pomocą tak przygotowanych narzędzi statystycznych fizycy przyjrzeli się 96 książkom: po sześć powieści ośmiu znanych autorów angielskich (Austen, Conrad, Defoe, Dickens, Doyle, Eliot, Orwell, Twain) i ośmiu polskich (Korczak, Kraszewski, Lam, Orzeszkowa, Prus, Reymont, Sienkiewicz, Żeromski). Naukowcy sprawdzili następnie, z jaką wiarygodnością można w ramach jednego języka stwierdzić autorstwo dwunastu losowo wybranych dzieł, traktując pozostałą część puli utworów jako materiał do porównań.

– W przypadku tekstów angielskich identyfikowaliśmy autorów poprawnie w niemal 90% przypadków. Na dodatek, by osiągnąć sukces, należało prześledzić powiązania między zaledwie 10-12 wyrazami badanego tekstu. Wbrew naiwnej intuicji, dalsze zwiększanie liczby badanych wyrazów nie podnosiło znacząco skuteczności metody – mówi Tomasz Stanisz.

W języku polskim ustalenie autorstwa okazało się jeszcze prostsze: wystarczało prześledzić powiązania zaledwie 5-6 wyrazów. Co szczególnie ciekawe, mimo dwukrotnie mniejszej niż w języku angielskim puli istotnych wyrazów prawdopodobieństwo poprawnej identyfikacji wzrosło do 95%. Tak wysoka poprawność diagnoz była jednak osiągana tylko wtedy, gdy jako osobne wyrazy traktowano także znaki interpunkcyjne. W obu językach pominięcie interpunkcji skutkowało wyraźną redukcją liczby poprawnych odgadnięć. Zaobserwowana rola interpunkcji to kolejne potwierdzenie wniosków z publikacji grupy prof. Drożdża z 2017 roku, gdzie wykazano, że interpunkcja pełni w języku rolę równie ważną jak same wyrazy.

– W porównaniu z językiem angielskim język polski wydaje się dawać większe możliwości ujawniania się stylu autora. Sądzimy, że podobną cechą charakteryzują się również pozostałe języki słowiańskie. Angielski jest bowiem językiem pozycyjnym, co oznacza, że istotna jest w nim kolejność wyrazów w zdaniu. Taki język pozostawia mniej miejsca na indywidualny styl wypowiedzi niż języki słowiańskie, w których o roli słowa czy wyrazu w zdaniu decyduje fleksja, czyli odmiana. Dopuszcza ona bowiem większą swobodę organizacji kolejności wyrazów w zdaniu przy niezmienionym jego znaczeniu – podsumowuje prof. Drożdż.