JSA – zmniejszyć skalę plagiatów

Marek Kozłowski

W wakacyjnym numerze „Forum Akademickiego” ukazały się trzy obszerne artykuły dotyczące działania Jednolitego Systemu Antyplagiatowego. Niestety żaden z nich nie prezentował zdania jego twórców, czyli nas – kilkunastoosobowego zespołu projektantów, programistów, analityków, testerów, administratorów, pracowników wsparcia użytkowników, zespołu szkoleniowego – którzy od ponad roku pracujemy nad rozwojem i wdrażaniem systemu tak, aby jednocześnie spełniał wymagania ustawowe i jak najlepiej rozwiązywał problem plagiatów w Polsce.

Tak, problem plagiatów na polskich uczelniach jest olbrzymim wyzwaniem dla wszystkich, którzy pracują nad technologiami służącymi do weryfikacji oryginalności prac dyplomowych, czuwają nad przebiegiem edukacji studentów i są zaangażowani w rozwój polskiego szkolnictwa wyższego. Czy jednak krytyka któregokolwiek z dostępnych systemów pomoże nam w walce z plagiatami? Dyskusja na temat systemów antyplagiatowych powinna się koncentrować wokół tego, jak powstrzymać studentów przed nadużyciami, jak wspierać promotorów oraz jak sprawdzać prace, aby nie dać się oszustom.

W jaki sposób studenci oszukują?

Jak wiemy, autorzy plagiatów robią wszystko, aby oszukać każdy system, który jest dostępny na rynku. W Internecie są fora na ten temat, niektórzy zarabiają nawet na tym, że piszą prace rzekomo odporne na wykrywanie plagiatu. Nieuczciwi „autorzy” prac dyplomowych przez lata wypracowali wiele sposobów, którymi próbują obejść zabezpieczenia dotychczasowych systemów antyplagiatowych. Jednym z takich sposobów jest na przykład zastąpienie spacji w tekście znakami w białym kolorze lub wprowadzaniem mikrospacji, czyli spacji o rozmiarze czcionki 1. Drobny zabieg, który można wykonać kilkoma kliknięciami na komputerze, pozostaje całkowicie niewidoczny po wydruku pracy, bo na białej kartce nie widać białych znaków lub mikrospacji, jest też w stanie oszukać część systemów antyplagiatowych.

Jeszcze innym sposobem obejścia zabezpieczeń jest zamiana liter łacińskiego alfabetu w kopiowanym tekście na litery pochodzące z obcego alfabetu. Na przykład w tekście literę „c” można zastąpić pochodzącym z cyrylicy identycznym znakiem, który odpowiada dźwiękowi „es”. Wizualnie nie ma żadnej różnicy, ale nie wszystkie systemy rozpoznają zmieniony w ten sposób wyraz.

Inne metody oszukiwania komputerowych algorytmów polegają na zaawansowanej edycji skopiowanego tekstu: zmianie szyku wyrazów w zdaniu lub kolejności zdań w akapicie, usunięciu części słów, wprowadzeniu nowych słów czy wymianie wyrazów na ich synonimy.

Tworząc JSA, przygotowaliśmy zestaw narzędzi odporny na te nadużycia. Mamy więc w Polsce pierwszy bezpłatny i powszechny system, który ma szansę zlikwidować nieuczciwe praktyki studentów. Jednak znacząca zmiana nie polega jedynie na wprowadzeniu odpowiedniego systemu antyplagiatowego. Wymaga zaangażowania środowiska akademickiego.

Przed jakimi wyzwaniami stoimy?

Dziś największym wyzwaniem wszystkich systemów antyplagiatowych jest zbudowanie jak największej bazy referencyjnych dokumentów, czyli tekstów, do których będzie porównywana wgrana do systemu praca dyplomowa. Idealną bazą referencyjną jest baza, w której znajdują się historyczne prace dyplomowe, prace semestralne, projektowe, zbiory artykułów naukowych (płatne i Open Access ) oraz wszystkie strony internetowe – polsko– i obcojęzyczne. Nagromadzenie jak największej ilości danych na temat konkretnego studenta może w przyszłości umożliwić profilowanie stylometryczne. To także jedna z metod wykrywania plagiatu, będzie ona istotna w najbliższej przyszłości, ponieważ umożliwi wykrywanie stylu danej osoby, a w konsekwencji możliwe będzie stwierdzenie, czy praca dyplomowa została napisana stylem tej osoby, czy została kupiona od innej osoby na zamówienie. By było to możliwe, w bazie referencyjnej powinny być uwzględnione także prace pisemne ze szkoły średniej – to właśnie wtedy, według psychologów, wykształca się styl pisania konkretnej osoby. W bieżącej wersji JSA wprowadzono metody wykrywania fragmentów podejrzanych o inny styl niż dominujący w pracy, jest to pierwszy krok na drodze do ostatecznego zbudowania wiarygodnego profilowania bazującego na historycznym dorobku osoby.

Kolejnym wyzwaniem dla rynku antyplagiatowego jest stworzenie systemu, który nie tylko skutecznie sprawdza oryginalność pracy, ale także robi to szybko. Wraz ze wzrostem zasobów do porównywania dokumentów pojawi się problem, jak efektywnie przetwarzać tak duże zbiory, by badanie trwało kilka lub kilkanaście minut (jak dotychczas), a nie – na przykład – całe doby czy tygodnie. Obecnie przetworzenie pracy w JSA trwa średnio około cztery minuty i jest to poziom, który idealnie byłoby zachować.

Jakie cechy ma idealny system do walki z plagiatami?

Przypomnę, że obecnie żaden dostępny w kraju system do walki z plagiatami nie jest idealny. Idealny system powinien uwzględniać: wszystkie pisemne prace ze szkoły średniej, pisemne matury, wszystkie pisemne prace zaliczeniowe i projektowe ze studiów, wszystkie pisemne prace dyplomowe, doktorskie, habilitacyjne, zasoby krajowego i zagranicznego Internetu w postaci zrzutów lub za pośrednictwem API wyszukiwarki, wszystkie artykuły naukowe – płatne i w formie Open Access , wszystkie książki – klasyczne i dostępne w Internecie, jak np. Google Books. W tej chwili zgromadzenie takich danych w systemie antyplagiatowym jest niemożliwe i nie wiadomo, czy kiedykolwiek będzie. Na przykład JSA ma dostęp do bazy NEKST, nazywanej czasem „polskim Internetem”. Skupiająca 880 milionów stron z domeny „.pl” baza, ważąca ponad 20 TB, to zaledwie kropla w morzu światowych treści internetowych. Korpusy obcojęzycznych stron internetowych ważą nawet 1000 razy więcej niż to, co nazywamy korpusem polskiego Internetu, dlatego nawet największe międzynarodowe systemy antyplagiatowe, takie jak PlagDetector czy TurnItIN, radzą sobie, korzystając z pomocy wyszukiwarek Bing czy Google. Bo żadna firma, może właśnie poza Google (indeksuje ok. 100 miliardów stron internetowych), Microsoftem czy Baidu, nie ma dostępu do większości zasobów światowego Internetu. Światowy Internet to zasób, którego dziś żadna firma oferująca narzędzia do walki z plagiatem nie ma w formie statycznego zbioru danych. Firmy, które działają w Polsce, mają dostęp do światowych zasobów internetowych za pośrednictwem API wyszukiwarek, np. Bing API. A to w praktyce oznacza, że dzielą prace na fragmenty, z których następnie wybierają słowa kluczowe i za ich pomocą wykonują zapytania do wyszukiwarek. Powoduje to zawsze ryzyko zgubienia pewnych tekstów, np. przez złą selekcję słów kluczowych czy strukturę i liczbę zapytań.

Za nami osiem miesięcy działania JSA na rynku. Przed nami jeszcze wiele pracy, aby system był coraz bliższy ideału. Zbieramy wszystkie głosy środowiska akademickiego i wspólnie z MNiSW będziemy decydować o ich zastosowaniu. Uznaliśmy, iż chcemy realizować politykę opartą na danych (ang. data driven policies ), więc przez pierwsze dwie sesje obron prac dyplomowych dajemy możliwości uczelniom, by dzieliły się swoimi doświadczeniami. Zbieramy jak najwięcej danych, uwag od uczelni, promotorów i integratorów systemów informatycznych.

Co się jeszcze wydarzyło? Od momentu wprowadzenia JSA upowszechniliśmy praktykę weryfikowania oryginalności prac dyplomowych. W 2016 roku tylko 30-40% z nich przechodziło rzetelne badanie z wykorzystaniem profesjonalnych narzędzi informatycznych. Teraz wygląda to zdecydowanie pokaźniej. W sesji letniej obrony wciąż trwają, a licząc od początku 2019 r. wykonano już ponad 300 tys. badań dotyczących 287 tys. prac dyplomowych. To oznacza, że obecnie 90% prac dyplomowych bronionych w 2019 roku zostało zweryfikowanych za pomocą JSA, a za chwilę zbliżymy się do 100%. To jak wprowadzenie obowiązkowych szczepień w Polsce, które 70 lat temu zmniejszyły liczbę chorób zakaźnych.

Jakie problemy rozwiązuje wprowadzenie JSA?

Dzięki temu, że powstał system bezpłatny i uregulowany ustawą, w sposób naturalny zwiększyła się świadomość na temat zjawiska plagiatu na uczelniach. Tak jak wspomniałem, w 2016 r. poziom użycia jakichkolwiek narzędzi do walki z plagiatami sięgał 30-40% obron. Dlaczego był tak niski? Uczelnie wskazują różne powody: brak wolnych środków finansowych na licencje i wdrożenie systemów na uczelni, brak czasu na prowadzenie takich aktywności, brak kompetencji wewnątrzuczelnianych w utrzymaniu systemów informatycznych, brak pewności, że kupione komercyjne systemy będą długoterminowo rozwijane i wspierane. Dodatkowo duża część pracowników szkolnictwa wyższego nie miała świadomości, jak działają typowe nadużycia studentów, brakowało im podstawowej wiedzy potrzebnej do korzystania z raportów antyplagiatowych. Dzięki JSA udaje się to zmienić. Pamiętajmy jednak – jest to system ogólnopolski, dotyczący działania wszystkich uczelni w kraju, dlatego proces wdrażania wymaga czasu, zmian, adaptacji i nauki.

JSA odpowiada na potrzeby promotorów z całej Polski, którzy zauważali wyraźne różnice w działaniu i wynikach różnych komercyjnych systemów antyplagiatowych: te same prace mogły być analizowane w zupełnie różny sposób na różnych uczelniach, a przede wszystkim względem różnych źródeł referencyjnych. To rodziło ryzyko, że ta sama praca dyplomowa na jednej uczelni może być uznana za plagiat, a na innej nie. Właśnie dlatego MNiSW podjęło decyzję o stworzeniu JSA, który umożliwia wykrywanie plagiatów za pomocą jednego zestawu algorytmów dla wszystkich uczelni w kraju. Nie było to możliwe przy korzystaniu z różnych systemów antyplagiatowych.

Drugi problem, który rozwiązuje JSA, to brak ujęcia dłuższych fragmentów tekstu w analizie. Dotychczas systemy antyplagiatowe skupiały się na znalezieniu podobieństw między dokumentami w bardzo krótkich równoważnych fragmentach tekstu (na poziomie lustrzanych fraz, które dalej promotor musiał sam analizować w szerszym ujęciu). JSA pozwala na wykrywanie dłuższych fragmentów podejrzanych o szeroko zakrojoną manipulację. To z kolei pozwala na wyłapanie prób oszustwa pod kątem zmiany kolejności zdań w kopiowanym fragmencie, zmiany szyku wyrazów, zmiany stylu wypowiedzi, przeplatania tekstu źródłowego własnymi zdaniami czy wyrazami. Dzięki temu analiza JSA jest pełna.

Trzeci problem, na który odpowiada JSA, to potrzeba różnicowania kryteriów służących do wykrywania plagiatów adekwatnie do specyfiki dyscyplin naukowych (np. matematyki czy prawa).

Do jakich dokumentów promotor porównuje prace dyplomowe za pomocą JSA? Łącznie JSA analizuje ok. miliard dokumentów, a ta liczba jest regularnie powiększana. Prowadzone są prace nad włączeniem kolejnych źródeł internetowych, wewnętrznych dokumentów danej uczelni oraz innych źródeł.

Czy JSA widzi zapożyczenia z Internetu?

JSA porównuje badane prace do bazy referencyjnej, która zawiera m.in. korpus polskiego Internetu, sześć Wikipedii oraz bazy aktów prawnych. Zasoby JSA pozwalają na porównywanie wgranych plików do treści ponad 880 milionów stron internetowych i wykrywanie zapożyczeń pochodzących z tych źródeł. Obecnie trwają prace nad rozszerzeniem zasobów JSA o anglojęzyczny Internet, co będzie możliwe dzięki integracji z takimi wyszukiwarkami jak Bing. Czy JSA jest w stanie wyłapać wszystkie zapożyczenia z Internetu? Nie, podobnie jak każdy system antyplagiatowy na rynku polskim i światowym nie ma on w bazie referencyjnej treści wszystkich stron internetowych. Twórcy systemu pracują nad tym, by regularnie uzupełniać bazę tekstów porównawczych o kolejne zasoby, także internetowe. Decyzję o powiększeniu tych zasobów o nowe źródła każdorazowo podejmuje MNiSW.

Równocześnie JSA już teraz ma jedną z największych baz referencyjnych w Polsce do wykrywania plagiatu w pracach dyplomowych i doktorskich, jest bowiem zintegrowany z największą w kraju bazą prac dyplomowych – Ogólnopolskim Repozytorium Pisemnych Prac Dyplomowych (ORPPD), które skupia blisko 3 miliony prac dyplomowych, także w językach obcych. System jest technicznie przygotowany na włączanie kolejnych zasobów referencyjnych. JSA to system młody, który został uruchomiony na początku 2019 roku. Twórcy JSA pracują nad tym, aby system już w 2020 roku posiadał największą w Polsce bazę porównawczą.

Czy za pomocą JSA można wykryć plagiat w pracach, w których student wykorzystał treści z tekstów obcojęzycznych? Tak, system weryfikuje oryginalność tekstów w porównaniu do materiałów obcojęzycznych, które ma w swoich zasobach. W bazie ORPPD znajdują się dokumenty napisane w różnych językach, a system ma także dostęp do treści Wikipedii w sześciu różnych wersjach językowych. Trwają także prace nad podłączeniem kolejnych obcojęzycznych baz internetowych.

W jakim zakresie będą powiększane zasoby JSA?

Administratorzy regularnie powiększają zasoby systemu poprzez podłączanie kolejnych baz danych do Jednolitego Systemu Antyplagiatowego. System jest technicznie przygotowany na dołączanie wszelkiego rodzaju dokumentów tekstowych i treści stron internetowych.

Czy zestaw algorytmów JSA pokazuje podobieństwo tam, gdzie go nie ma? System jest tak skonstruowany, aby kolorować większe fragmenty tekstu, które mogą, ale nie muszą być sklejką lustrzanych kopii zdań z oryginalnego tekstu. Chodzi o to, aby wskazać na prawdopodobieństwo manipulacji, których jest coraz więcej i mają coraz bardziej wyrafinowane formy. To alert dla promotora, że trzeba przyjrzeć się dokładnie takiemu fragmentowi. Dostępne systemy antyplagiatowe często kolorują setki/tysiące dwu– czy trzywyrazowych fragmentów lub indeksy w tabelach i wykresach. JSA oznacza kolorem mniej fragmentów, ale są to fragmenty dłuższe. W pojedynczym zakolorowanym przez JSA fragmencie mogą być ujęte nieidealne klony fragmentów źródłowych, ale za to bardzo istotne potencjalnie nadużycia: zmiana szyku zdań, wyrazów, maskowanie skopiowanego tekstu poprzez wklejenie dodatkowego zdania czy wyrażenia pomiędzy skopiowany tekst, usuwanie wyrazów i zdań, zastąpienie części słów innymi. Konieczne jest wykrywanie takich podobieństw, aby promotor mógł zauważyć plagiat. Konsekwencją tego rozwiązania jest to, że promotor widzi zamalowane kolorem fragmenty, które na pierwszy rzut oka nie muszą wyglądać jak kopie 1:1. Konstrukcja zestawu algorytmów w JSA została opracowana w taki sposób, aby wznieść poziom weryfikacji prac dyplomowych i doktorskich na wyższy poziom. A ten poziom zawsze wyznaczają studenci, którzy dokonują oszustw. Podsumowując, JSA nie modyfikuje treści oraz nie pokazuje podobieństw tam, gdzie ich nie ma.

Czy sposób pomiaru prac dyplomowych za pomocą JSA jest jednolity?

JSA analizuje prace dyplomowe za pomocą jednego zestawu algorytmów, serca systemu. Ten zestaw algorytmów jest niezmienny od powstania systemu w 2019 roku. Informatycy dbają o jego regularne aktualizacje oraz unowocześnianie interfejsu. Zatem zestaw algorytmów do analizy prac dyplomowych jest jednolity. Równocześnie oprogramowanie umożliwia definiowanie progów ostrzegawczych na poziomie uczelni i wydziałów. Różnicowanie poziomu progów ostrzegawczych odbywa się adekwatnie do dziedziny nauki i obecnie leży po stronie władz uczelni i wydziałów. Uwzględnianie specyfiki każdej dyscypliny naukowej z osobna jest jednym z priorytetów twórców JSA oraz promotorów, którzy zgłaszali taką potrzebę podczas pierwszych konsultacji systemu. Sposób działania zestawu algorytmów się nie zmienia mimo różnego ustawienia poziomów alertów ostrzegawczych i alarmowych.

W 2020 roku twórcy systemy wydadzą rekomendacje dotyczące poziomu progów ostrzegawczych w odniesieniu do kierunków studiów. Bieżący rok jest pierwszym okresem działania systemu. Przez ten okres OPI PIB testuje opracowaną technologię, aby móc ją w pełni przystosować do specyfiki szkolnictwa wyższego i zmian w nim zachodzących. JSA jest centralnym i bezpłatnym systemem, który służy do walki z plagiatami. Jednolitość w nazwie systemu odnosi się zatem także do jego zasięgu i dostępności.

Czy kolejne aktualizacje JSA zmieniają też zestaw algorytmów do wykrywania plagiatów? Aktualizacje systemu dotyczą jego poszczególnych funkcjonalności, a nie mechaniki algorytmów do wykrywania manipulacji i nadużyć w tekście. Standardem na rynku rozwiązań technologicznych jest codzienne utrzymywanie i rozwijanie systemu, z czym wiążą się jego aktualizacje, częściowo sugerowane przez promotorów lub ograniczenia zewnętrzne. Sama metodyka, czyli zestaw algorytmów, który analizuje teksty, jest niezmienny od uruchomienia systemu w styczniu 2019 roku. Podsumowując, JSA zapewnia te same standardy oceny dla prac dyplomowych sprawdzanych za pomocą systemu – zarówno przed, jak i po aktualizacjach.

Czy JSA może automatycznie wykryć plagiat? Czego wymaga od promotorów, a w czym pomaga? W przypadku każdej pracy dyplomowej promotor jest jedyną osobą, która może określić ją jako plagiat. System antyplagiatowy jest pomocnym narzędziem, które umożliwia wykrycie nadużyć. JSA działa w sposób zautomatyzowany, a dzięki wykorzystaniu sztucznej inteligencji jest w stanie zaznaczyć dłuższe fragmenty, w których dokonano zmiany szyku wyrazów, zdań, stylu lub zastosowano pewne manipulacje maskujące. Finalnie to jednak promotor określa, czy dana praca dyplomowa jest plagiatem. Dzięki weryfikacji pracy za pomocą JSA widzi, które fragmenty wymagają uważnego sprawdzenia.

Z czego wynika określony wygląd systemu?

JSA spełnia wymagania WCAG, czyli ściśle określonych udogodnień systemu, np. dla osób niedowidzących lub nierozróżniających kolorów. Dzięki kolorom wskazywane są też różne rodzaje zapożyczeń w raporcie, dzięki czemu użytkownik może z niego korzystać w sposób intuicyjny. Gdyby system oznaczał fragmenty jednym kolorem, promotor nie widziałby między nimi różnicy. Tymczasem system jest tak zaprojektowany, aby m.in. kolorem pomarańczowym pokazywać stan ostrzegawczy, kolorem czerwonym próg alarmowy.

Dlaczego system zaznacza jako plagiat bibliografie i spisy treści? Wszystkie dostępne na rynku systemy antyplagiatowe zaznaczają te elementy pracy dyplomowej, dlatego że badanie obejmuje cały tekst pliku, niezależnie od sekcji dokumentu, w której się on znajduje. W przypadku JSA promotor pracy może odznaczyć te fragmenty, a wówczas system przelicza wynik na nowo. Jeszcze w tym roku JSA będzie to robił automatycznie, co dodatkowo ułatwi pracę promotorom. System działa od początku 2019 roku i jest stale rozwijany o nowe funkcje.

Czy w systemie można sprawdzać także prace podyplomowe? System jest technicznie przygotowany do sprawdzania wszystkich plików tekstowych, także prac podyplomowych. O tym, co jest obecnie weryfikowane za pomocą systemu, zdecydował ustawodawca.

Dlaczego do systemu nie można wgrać prac powyżej 15MB? System sprawdza pisemne prace dyplomowe, a nie rysunki techniczne, elementy programów czy wykresów. Wynika to z treści art. 76 ust. 4 ustawy z dnia 20 lipca 2018 r. Prawo o szkolnictwie wyższym i nauce oraz Regulaminu JSA (https://jsa.opi.org.pl/centrum-pomocy/regulamin/). Oznacza to, że sprawdzany w systemie jest tekst pracy dyplomowej (plik tekstowy), a nie jego załączniki. Ustalony limit powinien być wystarczający dla większości plików tekstowych. Dzięki ustalonym limitom prace przesyłane do badania – poza okresem wzmożonego ruchu – generują raport średnio po ok. czterech minutach.

Jednocześnie w odpowiedzi na zgłaszane przez uczelnie prośby prowadzone są prace nad zwiększeniem limitu wielkości plików przesyłanych do badania. System będzie zatem w niedługim czasie przyjmował prace, w których pojedyncze pliki będą mogły mieć do 20MB. Wielkość pliku wpływa na czas badania.

Jaki format musi mieć praca wgrana do JSA? System JSA jest dostosowany do analizowania plików tekstowych w formatach: .txt, .pdf, .doc, .docx, .odt, .rtf.

Czy system wykryje w tekście elementy w innym formacie, np. zdjęcia czy tabele zagnieżdżone? System rozpoznaje elementy zagnieżdżone w plikach .docx, obrazki zagnieżdżone w plikach .pdf oraz grafiki wektorowe .svg w plikach .docx i .odt. Wszystkie takie obiekty są pomijane w analizie prac. System skupia się zatem na badaniu fragmentów tekstu, które są kluczowe dla wyniku badania.

Jak JSA analizuje cytaty? Czy podobieństwa w tym zakresie zawierają się w analizie? Ponieważ sposobów cytowania jest wiele (różne przyjęte zasady przez uczelnie i promotorów), system nie może wyróżniać jednego z nich jako właściwego. Dlatego autorzy algorytmu zaproponowali rozwiązanie, w którym cytat jest wyświetlany w raporcie, ale promotor może go odznaczyć i nie brać pod uwagę. To bezpieczniejsze rozwiązanie niż pomijanie w analizie fragmentów oznaczonych cudzysłowem – system jest wówczas dodatkowo chroniony przed nadużyciami autorów prac.

Chętnie odpowiemy na kolejne pytania.

Dr inż. Marek Kozłowski , kierownik Laboratorium Inżynierii Lingwistycznej z OPI PIB, twórca JSA