Google, Google, powiedz przecie…
Niemal połowa światowej populacji ludzkiej ma dziś dostęp do Internetu. Zaledwie dwadzieścia lat temu, w 1995 roku, dostęp ten posiadało mniej niż jeden procent ludności. Pomiędzy rokiem 1999 a 2013 liczba użytkowników wzrosła dziesięciokrotnie. W 2005 roku osiągnęliśmy pierwszy miliard, w 2010 drugi, trzeci w 2014 roku. Co sekundę internauci wysyłają dwa i pół miliona e-maili i oglądają ponad sto tysięcy filmów na YouTube. W każdej sekundzie wyszukiwarka Google otrzymuje ponad pięćdziesiąt tysięcy zapytań od internautów, co daje trzy i pół miliarda zapytań każdego dnia. Dane o zapytaniach użytkowników są gromadzone i zbierane w aplikacji Google Trends. Zebrane przez Google informacje pokazują między innymi czym aktualnie najbardziej emocjonują się ludzie w poszczególnych krajach czy regionach. Gdy piszę ten tekst, najczęściej wyszukiwaną frazą na świecie jest „Agnieszka Radwańska”, „Garbine Muguruza” i „Wimbledon”. Nasza tenisistka walczy bowiem właśnie o wejście do finału Wimbledonu z hiszpańską przeciwniczką. W polskim Top-10 jest też „Gazprom” (problemy przy budowie gazociągu na dnie Morza Czarnego) oraz „Na Wspólnej” (wygląda na to, że Ola i Daniel znów się kochają). Widać tu miarę popularności poszczególnych tematów, trendy zainteresowań lub skuteczność kampanii informacyjnych.
Czy z tej ogromnej bazy danych można wyciągnąć coś więcej? Ekonomista z Uniwersytetu Harvarda, dr Seth Stephens-Davidowitz, opublikował w „The New York Times” serię artykułów, w których używając internetowych danych (np. z portalu Google i Facebook) odpowiadał na przeróżne pytania. Ilu Amerykanów jest homoseksualistami? Dane ze spisu ludności wskazują na spore różnice pomiędzy regionami: w stanach mniej tolerancyjnych do homoseksualizmu przyznaje się mniej mężczyzn (1% w Missisipi), niż w tych bardziej tolerancyjnych (ponad 3% w Kalifornii). Czy to oznacza rzeczywistą różnicę w liczebności homoseksualistów, czy rolę odgrywają inne czynniki? Według autora różnica wynika z tolerancji otoczenia, a co za tym idzie – skłonności do przyznawania się do swoich preferencji. Przed komputerem, gdy nikt nas nie widzi, wyszukujemy szczerze. Zanikają wtedy międzystanowe różnice w wyszukiwaniu homoseksualnej erotyki – w każdym stanie takie frazy wpisuje w Google około pięć procent mężczyzn. Skądinąd wiadomo, że niższa tolerancja w społeczeństwie może się wiązać z częstszym wchodzeniem homoseksualistów w związki małżeńskie z kobietami. W tym kontekście ciekawe wydaje się, że w stanach znanych z mniejszej tolerancji najczęstszym słowem kończącym Googlowe zapytanie „Czy mój mąż…” jest fraza „jest gejem?”. Ta fraza kończy pytanie nawet częściej niż „mnie zdradza?” lub „jest alkoholikiem?”. W tolerancyjnych stanach popularność zapytania o homoseksualizm męża mocno spada.
Szczerość naszych zachowań przy wyszukiwarkach internetowych, połączona z ich powszechnością, może też wiele powiedzieć o różnicach kulturowych. Jakie pokarmy wzbudzają obawy kobiet w ciąży? Sprawa mocno zmienia się w zależności od kraju zamieszkania. W Stanach Zjednoczonych przyszłe mamy najczęściej się zastanawiają, czy mogą jeść krewetki, pić wino i kawę. Zapytania te nie mieszczą się natomiast nawet w Top-10 w Nigerii czy Australii. W tym ostatnim zmartwieniem numer jeden jest bezpieczeństwo spożywania kremowego sera. W Nigerii obawy budzi picie zimnej wody. Różnice te nie wynikają z różnic w samej diecie. Chodzi tu raczej o docierające do nas informacje. Jeżeli w mediach mowa o szkodliwym wpływie kawy na rozwój dziecka, mamy martwią się kofeiną. W Nigerii część ludzi wierzy, że picie zimnej wody może doprowadzić do zapalenia płuc u dziecka. Żyjące w upale Nigeryjki szukają więc potwierdzenia w Google. Pouczające są również zapytania przyszłych ojców. W Meksyku pytając o ciężarną żonę, mężczyźni najczęściej szukają słów wyznań miłosnych. Natomiast w USA najpopularniejsze są frazy typu: „moja żona jest w ciąży i co teraz”. Latynoska namiętność naprzeciw europejskiemu pragmatyzmowi? Interpretację pozostawiam czytelnikowi.
A co z tytułową grypą?
Jak może w tym miejscu pomóc Internet? Tradycyjny monitoring choroby w Stanach Zjednoczonych prowadzi Centrum Kontroli i Zapobiegania Chorobom (Centre for Disease Control and Prevention). Instytucja ta zbiera dane o wizytach pacjentów u lekarzy pierwszego kontaktu, a następnie co tydzień publikuje dane o zachorowaniach. Regularny monitoring choroby pozwala na odpowiednie rozmieszczenie zasobów (ostrzeżenia, leki, szczepionki) i w dalszym etapie zmniejszanie strat wywołanych grypą. Tradycyjnie zebrane dane są jednak publikowane z opóźnieniem. Poszczególne przychodnie i szpitale muszą wysłać dane do regionalnych centrów, te muszą dane zebrać i opracować. W momencie publikacji są już przedawnione o około dwa tygodnie. Czy można szybciej? Wielu z nas szuka porad medycznych w Internecie. Szukamy leków i symptomów chorób. Można więc śmiało założyć, że w okresach o wzmożonej zachorowalności na grypę zapytań o tę chorobę będzie więcej. Inżynierowie z Google zebrali dane historyczne z Centrum Kontroli i Zapobiegania Chorobom o liczbie zachorowań i porównali je ze zbiorem wszystkich zapytań wpisywanych przez internautów w wyszukiwarkę. W ten sposób wybrali 45 fraz, które doskonale pokrywały się z rzeczywistą liczbą chorych na grypę. Następnie użyli zidentyfikowanych wcześniej słów-kluczy, by na bieżąco śledzić zachorowalność na terenie USA. Model sprawdził się wyśmienicie: dokładność przewidywania wahań w liczbie przypadków grypy na podstawie wpisów w Google wynosiła 97%! Możliwe jest więc monitorowanie choroby w czasie rzeczywistym. Dane z wyszukiwarki są bowiem uaktualniane i publikowane nawet co godzinę. Dzięki danym przeglądarkowym można więc usprawnić system walki z chorobą. Wyniki tej pracy zostały zebrane i opublikowane w prestiżowym czasopiśmie „Nature” w 2009 roku.
Dwa lata temu przypadkiem wpadłem na tę pracę. Byłem zafascynowany. Miliony użytkowników Internetu korzystają codzienne z Google, a informacje o ich zapytaniach gromadzone są w jednym miejscu. Google Trends zbiera je i za darmo udostępnia wszystkim zainteresowanym. Baza danych o wielkości, którą trudno sobie wyobrazić. Jak wiele możliwości to daje? Do czego mogłoby się przydać ekologowi? Wspólnie z kolegą, który ma na imię Kuba i pracuje na tym samym uniwersytecie, poświęciliśmy temu długie dyskusje. Nasze zainteresowania badawcze mają pewien wspólny mianownik – lata nasienne. Co to jest? Rośliny, u których występuje to zjawisko, rozmnażają się raz na kilka lat. Mamy lata o minimalnej bądź nawet zerowej produkcji nasion, po których występują lata niesamowitego urodzaju. Takie zjawisko występuje na przykład u buków czy dębów i wiąże się z opadem nasion rzędu kilku ton na hektar. Co więcej, zjawisko jest zsynchronizowane na ogromnych obszarach. Dęby mogą na zmianę produkować nasiona i milknąć na terenie całej Polski. Wiąże się to z szeregiem zmian w lesie. Duży opad nasion powoduje na przykład zwielokrotnienie liczebności gryzoni w lesie. Niemal nieograniczony dostęp do pokarmu pozwala bowiem małym ssakom na bardzo skuteczny rozród. Kolejnego roku nasion zazwyczaj nie ma wcale i liczebność myszy pikuje w dół.
Czy można to zobaczyć w Google? Prawie każdy, kto kiedyś mieszkał na wsi lub na przedmieściach, został odwiedzony w domu przez gryzonia. Zazwyczaj chcemy się nowego lokatora pozbyć. Jaki jest najskuteczniejszy sposób? Można zapytać Google. Ciąg myślowy był więc następujący: drzewa produkują mnóstwo nasion (rok nasienny), to prowadzi do zwiększonej liczebności gryzoni, co przekłada się na zwiększoną liczbę domów odwiedzonych przez małe ssaki. Im więcej odwiedzonych domów, tym więcej zapytań o skuteczne metody walki z gryzoniami. Czy to zadziała? Kuba zebrał dane o zapytaniach w Google, a ja wysłałem mu dane o liczebności małych ssaków, które zbierane były na potrzeby innego projektu. Zadziałało. Liczebność gryzoni ma pośrednie odzwierciedlenie w cybernetycznym zachowaniu ludzi. Nieźle.
Jak to można wykorzystać?
Z badań w Stanach Zjednoczonych wiadomo, że lata nasienne dębu mają jeszcze jeden skutek. Wpływają na ryzyko zachorowania ludzi na groźną dla zdrowia boreliozę. Jest to choroba przenoszona przez kleszcze, wywoływana przez bakterie Borrelia. Im więcej kleszczy nosi w sobie drobnoustroje, tym większe ryzyko zachorowania. Duże zagęszczenia gryzoni po roku nasiennym sprawiają, że kleszczom bardzo łatwo znaleźć mysz-gospodarza. Zwiększa to przeżywalność kleszczy, a co za tym idzie – liczbę tych pajęczaków. Dodatkowo gryzonie są rezerwuarem boreliozy. Oznacza to, że są świetne w przekazywaniu choroby. To potęguje efekt: nie dość, że kleszczy jest więcej, to jeszcze powiększona część ich populacji jest zarażona bakterią. Według badań terenowych prowadzonych we wschodnich Stanach Zjednoczonych to właśnie sprawia, że ryzyko zachorowania na boreliozę dwa lata po roku nasiennym jest znacznie wyższe. Najpierw mamy rok T1, w którym opad nasion jest bardzo duży. W kolejnym roku (T2) liczebność gryzoni wykarmionych żołędziami jest zwielokrotniona, co sprzyja kleszczom. Wreszcie w roku T3 liczne pajęczaki wychodzą na powierzchnię, by szukać kolejnego gospodarza (w tym ludzi). W związku z tym władze zainteresowanych stanów monitorują produkcję żołędzi i w razie dużego opadu nasion ostrzegają przed zwiększonym zagrożeniem. Odkrycie mechanizmu ekologicznego wskazało tani i szybki sposób identyfikacji zwiększonego ryzyka zarażenia.
To jednak wiedza z USA. Potwierdzenie działania mechanizmu wymagało kilkunastu lat intensywnego zbierania danych w terenie, co oczywiście kosztowało mnóstwo pracy i pieniędzy. W związku z tym do tej pory nie przeprowadzono podobnych badań w innych regionach świata. Szkoda, bo jeżeli podobny mechanizm działa w Europie, moglibyśmy równie łatwo ostrzegać przed zwiększonym zagrożeniem boreliozą. Tu rodzi się pytanie: czy można byłoby takie dane zebrać pośrednio, mniejszym kosztem? Nie musimy mechanizmu badać od nowa, potrzebujemy jedynie informacji, czy ten ciąg zdarzeń ma też miejsce w ekosystemach Europy. By to sprawdzić, zebraliśmy dane z ostatnich dziesięciu lat z trzech źródeł: Państwowego Zakładu Higieny (liczba notowanych przypadków boreliozy w Polsce), Lasów Państwowych (krajowa produkcja nasion dębu) oraz Google Trends (częstość wyszukiwania fraz związanych z boreliozą: kleszcz, borelioza oraz pośredni wskaźnik liczebności gryzoni opisany powyżej). Chcieliśmy wiedzieć, czy liczba chorych na boreliozę zwiększa się razem z opadem nasion dębu oraz czy będzie można zobaczyć ten łańcuch wydarzeń w trendach Google. Założyliśmy, że im więcej kleszczy, tym więcej zaatakowanych ludzi, którzy będą szukać w Internecie informacji o pasożycie. Wyniki przerosły nasze oczekiwania. Po pierwsze, w Polsce występuje bardzo silne powiązanie pomiędzy wielkością opadu żołędzi a liczbą chorych na boreliozę dwa lata później. Co więcej, ekologiczny łańcuch wydarzeń, który łączy żołędzie i boreliozę, jest widoczny w Google Trends. Im większy opad nasion, tym rok później więcej internetowych zapytań o środki przeciw myszom. Natomiast dwa lata później rośne liczba zapytań internetowych o kleszcze i boreliozę. Innymi słowy, dynamiczna sytuacja w lesie jest przez nasze klawiatury przenoszona do wirtualnego świata Internetu.
Napisaliśmy już pracę naukową dokładnie opisującą sposób zebrania danych, ich analizę oraz osiągnięte rezultaty. Mam nadzieje, że w najbliższych miesiącach ukaże się artykuł, który wyposaży polskie instytucje w nowe narzędzie w walce z tą groźną chorobą.
Komentarze
Tylko artykuły z ostatnich 12 miesięcy mogą być komentowane.