.pl .en .de .ru
Interdyscyplinarny blog badawczy pracowników Instytutu Językoznawstwa i Pracowni Systemów Informacyjnych UAM

Wykresologia świata nadprzyrodzonego

Filip Graliński
12/02

Zawsze inspirujący Dr. Beachcombing badał jakiś czas temu kwantyfikatywnie świat nadprzyrodzony, w szczególności użył Google Ngram Viewera, by wygenerować taki wykres obrazujący zmiany w czasie częstości kilku angielskich słów:

(Ghosts to duchy, witches — wiedźmy, vampires — wampiry, werewolves — wilkołaki, fairies — hmmm… nie ma dobrego polskiego odpowiednika).

Powymądrzajmy się teraz trochę, przede wszystkim zwróćmy uwagę na parametr wygładzania (smoothing), ustawmy go w Google Ngram Viewerze na 0 (domyślna wartość, użyta w pierwszym wykresie to 3):

Wykres jest teraz bardziej postrzępiony, przypomina sejsmograf w godzinie zero; chociaż widać i tu generalny trend (np. że na początku lat 40. ubiegłego wieku ludzkość miała na głowie inne sprawy), łatwiej się jednak tego trendu dopatrzyć przy włączonym wygładzaniu.

A czym tak naprawdę jest wygładzanie? Oznacza to, że dla danego roku bierzemy średnią częstości z kilku lat (średnią kroczącą), np. ustawienie wygładzania na 3 oznacza, że dla roku, powiedzmy, 1977 weźmiemy średnią z 3 lat wstecz, tegoż roku i 3 lat wprzód (1974, 1975, 1976, 1977, 1978, 1979, 1980). Z jednej strony trochę to oszukiwanie (ostrożnie ze stwierdzeniami, że coś — sądząc po wygładzonym wykresie — pojawiło się w danym roku, niezerowa wartość frekwencji może wynikać z uśrednienia z późniejszymi latami!), z drugiej strony ma to matematyczny sens, pozwala abstrahować od przypadkowych fluktuacji i łatwiej wyłapać trendy. My też na naszych wykresach stosujemy wygładzanie równe 3, więc caveat emptor!

pik wiedźm

Na niewygładzonym wykresie wyszła jedna ciekawa rzecz: pik dla witches w roku 1928 („górka” dla lat 20. wynika wyłącznie z wygładzonego szczytu z tego konkretnego roku!) Google Ngram Viewer oparty jest na tekstach zeskanowanych książek, dostępnych również w wyszukiwarce Google Books. Na książkach — więc możliwe, że pik z 1928 roku to efekt po prostu jakieś jednej książki, w której wiele razy pojawiło się słowo witches. Wyszukajmy w Google Books książki ze słowem witches z roku 1928, wychodziły trzy: Młot na czarownice, Wonder Tales from the Baltic Wizards oraz Dante Gabriel Rossetti, Painter Poet of Heaven in Earth (wychodziły, bo teraz, nie wiedzieć, czemu brak rezultatów dla tego zapytania) . Ha, więc współczesne wydanie (piętnastowiecznego!) Młota na czarownice może sprawić, że naiwny adept Ngram Viewera uwierzy, że lata 20. stały pod znakiem czarownic.

młot na dane

Aby upewnić się, że faktycznie Młot… jest winny pojawienia się czarownic w latach 20. ubiegłego wieku, postanowiłem pobrać dane, na podstawie których rysowane są wykresy; nie są to, niestety, pełne teksty, lecz poszatkowane kawałki. Przejrzałem pentagramy (bez obaw, chodzi o zbitki 5-wyrazowe) zaczynające się od witches z 1928 roku i znalazłem tylko jeden kawałek z Painter Poet…, a Młota na czarownice w ogóle nie było. Znalazłem za to kawałek opowiadania Marii Shelley (autorki Frankensteina) z 1824 roku.

O, czyżbym urządził tutaj polowanie na niewinnego Młota na czarownice?! Chwileczkę, w Ngram Viewer są tylko te zbitki, które wystąpiły co najmniej 40 razy, to tłumaczy brak 5-gramów z Młota… w tych danych.

Może od innej strony: Kramer i Sprenger lubowali się we frazie herezja czarownic (heresy of witches w angielskim tłumaczeniu), oto wykres:

No i posprzątane. Słowo witches pojawiło się, co prawda, w paru innych tekstach w latach 20., ale górka dla zapytania witches została wygenerowana przez Młot.

Morał: zawsze poszukujmy anomalii na niewygładzonych wykresach!

Swoją drogą, odkryliśmy przy okazji rozbieżność między Ngram Viewerem a Google Books (brak tekstu Shelley w wynikach wyszukiwania, obecnie żadna książka ze słowem witches z 1928 nie pokazuje się w wynikach). Należy zwrócić tutaj uwagę na to, że Google Ngram Viewer został oparty na danych z Google Books z roku 2012 i od tego czasu nie był aktualizowany, za to w Google Books mogły dojść nowe książki, inne mogły wypaść z różnych względów albo mogło zostać poprawione datowanie. Każdy, kto używa Google Books, zauważa, że książki znikają i pojawiają się tam z nieznanych powodów (na przykład nie mogę się teraz doszukać dziecka z gwiazdy z 1967, które wcześniej w Google Books było).

rozmiar ma znaczenie

Na Google Ngram Viewerze świat anglojęzycznej diachronii się nie kończy. Istnieje na przykład korpus COHA (Corpus of Historical American English, czyli Korpus Historycznej Amerykańskiej Angielszczyzny). Spójrzmy na wykres, który wykreśliłem na podstawie danych zaczerpniętych z tego korpusu:

Bardzo poszarpane… trudno doszukać się jakichś trendów, choć widać na przykład na przełomie stulecia większą popularność fairies i pik wiedźm z 1919 roku.

Spróbujmy wygładzić:

może jeszcze bardziej:

Tak się wygładziło, że nie widać powojennego piku wiedź, z kolei dla fairies mamy płaskowyż pod koniec XIX w. (Duża wartość na początku wynika z wysokich frekwencji na początku XIX w. — nieobecnych bezpośrednio na wykresie, choć wziętych pod uwagę przy wyliczaniu średnich).

COHA to korpus tylko amerykańskiego angielskiego (co może być wadą, może być też zaletą). Gorzej, że COHA jest ponad 100 razy mniejsza niż materiał, na jakim oparto Google Ngram Viewer (400 milionów wyrazów kontra 155 miliardów wyrazów). Teoretycznie korpus COHA jest lepiej zrównoważony (np. gatunkowo) i staranniej wyczyszczony… Jeśli jednak mam wybierać między czystością danych a ich masą, stawiam na to drugie!

kangury i duchy

A może sięgnijmy do gazet? Wykres na podstawie tekstów gazetowych powinien być gładszy (nawet bez wygładzania) — unikamy pików wygenerowanych przez konkretną książkę opublikowaną w danym roku. Można sięgnąć na przykład do otwartego serwisu Trove — australijskiej metabiblioteki cyfrowej (co oznacza, że tym razem ograniczamy się do australijskiej odmiany angielszczyzny):

Hmmm… nie widać tendencji, których dopatrywaliśmy się w wykresach w Google Ngram Viewerze i COHA. Może dlatego, że antypody? A może jednak to znak, że powinniśmy podchodzić z dużą ostrożnością do „kulturonomiki” (jak nazwano dopatrywanie się tendencji w życiu społecznym i historii na podstawie wykresów z Google’a).

gazety

Jeszcze jedna próba: skorzystajmy z płatnego serwisu newspapers.com. Obejmuje on głównie amerykańskie (ale też brytyjskie) gazety. Odpytałem wyszukiwarkę newspapers.com w interesującej nas kwestii dla każdego roku od 1820 do 2010, żmuda, ale ostatecznie udało się uzyskać następujący wykres:

Nawet bez wygładzania wykres nie jest bardzo postrzępiony, co dobrze świadczy o zrównoważeniu materiału, zastosujmy jednak standardowe wygładzanie 3:

No cóż, jeszcze inaczej niż poprzednio, wiedźmy i fairies idą w górę po I wojnie światowej, ale jeszcze bardziej pod znakiem nadprzyrodzonego stoi przełom mileniów (?!).

Jest tu jednak pewien ukryty problem: wyszukiwarka serwisu Newspapers.com lematyzuje zapytania, tzn. sprowadza je do formy podstawowej, oznacza to niestety, że na powyższych wykresach zostały uwzględnione teksty zawierające np. frazy Holy Ghost (Duch Święty) czy fairy tales (baśnie), przez co interpretowanie takich tekstów jest ryzykowne.

Jeszcze dygresja: nie mogę się w tym miejscu powstrzymać od użycia serwisu Newspapers.com do wygenerowania wykresu częstości dla flying saucers (latające talerze/spodki). W końcu w zeszłym roku mieliśmy okrągłą rocznicę, zresztą z wykresu widać, że w drugiej połowie XX w. temat wracał cyklicznie.

a sprawa polska

A jak to wygląda u nas? Zamiast odpowiedników angielskich wyrazów postanowiłem użyć nazw „nadprzyrodzonych” dyscyplin i ich adeptów.

Tagi