.pl .en .de .ru
Interdyscyplinarny blog badawczy pracowników Zakładu Infolingwistyki i Zakładu Przetwarzania Języka Naturalnego UAM

Brneńskie południe i konferencja TSD 2016

Rafał Jaworski
09/20

12 września wybrałem się do Brna na konferencję TSD 2016 i poznałem ciekawą miejscową tradycję: południe dla mieszkańców stolicy Moraw przypada codziennie o godzinie… jedenastej!

Dokładnie o 11:00 AM, żeby nie było wątpliwości. Jest to związane z historycznym oblężeniem tego miasta przez szwedzkiego generała Lennarta Torstenssona w 1645 roku. Wódz ten wraz ze swoją armią oblegał miasto przez wiele miesięcy, aż wreszcie rzekł: „jeśli do jutrzejszego południa nie zdobędę miasta, odejdę stąd”, po czym przypuścił wściekły atak na Brno. Obrońcy miasta bronili się dzielnie, ale mogliby polec, gdyby nie genialny w swej prostocie pomysł — we wszystkich kościołach oddzwonili dwunastą o jedenastej. A generał jak zapowiedział, tak uczynił — odstąpił od oblegania miasta.

Na szczęście te drobne różnice czasowe nie przeszkodziły mi w dotarciu na konferencję o czasie i wysłuchaniu wielu ciekawych prezentacji. Konferencja była poświęcona lingwistyce komputerowej, a tematem przewodnim mojej sesji było: „Community-based Building of Language Resources”. Mnie najbardziej zaciekawiła prezentacja: Tatiana Litvinova, Olga Litvinova „Russian Deception Bank: A Corpus for Automated Deception Detection in Text” o automatycznym wykrywaniu kłamstw.

Ja prezentowałem artykuł „Vive la petite difference! Exploiting small differences for gender attribution of short texts” o automatycznym rozpoznawaniu płci autora tekstu. Na potrzeby tego zadania przygotowaliśmy treningowy korpus tekstów z oznaczoną płcią autora. Sposób pozyskania tego korpusu był oryginalny — wzięliśmy gigantyczny zbiór polskich tekstów z Common Crawl (korpusu tekstów ze stron internetowych) i wykorzystaliśmy obecne w języku polskim wyrażenia ujawniające płeć osoby mówiącej, np. „poszedłem”, „poszłam”. Następnie zrównoważyliśmy korpus, biorąc zawsze równą ilość tekstów męskich i żeńskich z danej strony internetowej, żeby podczas odgadywania płci autora nie sugerować się tym, o czym autor napisał. Okazało się bowiem, że wśród osób piszących na stronach o technice komputerowej bardzo mało jest kobiet, a na stronach o ciąży i rodzicielstwie brakuje mężczyzn… W kolejnym kroku opracowaliśmy algorytmy klasyfikujące w oparciu o metody regresji, modele języka, ręczne reguły oraz sieci neuronowe. Najlepsze okazało się rozwiązanie oparte o sieci neuronowe i modele języka, które osiągnęło 71% skuteczności rozpoznawania płci autora. Biorąc pod uwagę trudność zadania, uważamy to za sukces! Zapraszam do zapoznania się z artykułem w dziale Publikacje.

Prezentuję również dwa zdjęcia z mojej prezentacji. Jedno „oficjalne”, wykonane przez organizatorów, a drugie wykonane przeze mnie! Podczas wystąpienia wspominałem o tym, jak dużo tekstu w Internecie to kontrowersje wokół selfie-stick’ów, po czym wyciągnąłem selfie-stick’a i zrobiłem sobie zdjęcie. Prezentacja była przyjęta bardzo ciepło!

Rafał Jaworski na TSD 2016 — zdjęcie organizatorów

Rafał Jaworski na TSD 2016 — zdjęcie organizatorów

Rafał Jaworski na TSD 2016 — selfie

Rafał Jaworski na TSD 2016 — selfie

Tagi