.pl .en .de .ru
Interdyscyplinarny blog badawczy pracowników Zakładu Infolingwistyki i Zakładu Przetwarzania Języka Naturalnego UAM

Na froncie płci

Filip Graliński
01/26

Przypominamy o naszym wyzwaniu „rozpoznaj płeć po krótkim fragmencie tekstowym”. Wyzwanie jest otwarte dla wszystkich chętnych na platformie Gonito.net.

Wyzwanie podjęli moi studenci uczestniczący w zajęciach z „Przetwarzania języka naturalnego”. Wpierw, w ramach rozgrzewki przygotowali proste rozwiązania oparte na ręcznie przygotowanych słownikach czy regułach. Oto jeden z tych (żeńskich) słowniczków: http://gonito.net/gitlist/petite-difference-challenge2.git/blob/submission-00210/Source/sjp-odm-20161121/Women.tsv (zaczyna się od ciąży i miesiączki). Takie prymitywne rozwiązania dają dokładność 51-52%, a więc niewiele większą niż gdyby zgadywać chybił-trafił (co daje 50% — korpus jest zrównoważony co do liczby tekstów męskich i żeńskich).

Studenci wytoczyli później cięższe działa informatyczne — rozwiązania oparte na modelowaniu języka, tzn.: na podstawie tekstów mężczyzn ze zbioru uczącego wytworzono model języka męskiego, na podstawie tekstów kobiet — model języka żeńskiego. Model języka (z definicji) to maszynka, która dla tekstu podanego na wejściu zwraca prawdopodobieństwo, tak więc gdy zgadujemy płeć autora tekstu, wrzucamy tekst do modelu „męskiego” i modelu „żeńskiego”, jeśli pierwszy model da wyższe prawdopodobieństwo, stawiamy na mężczyznę, w przeciwnym razie — na kobietę. Rozwiązania oparte na modelowaniu języka dały studentom — w zależności od szczegółów implementacji — 64-65% dokładności, a więc znacząco lepiej niż rzut monetą!

A kto prowadzi? Na razie piszący te słowa — najlepsze moje rozwiązanie ma dokładność 69,3%, jest to hybryda modeli języka i regresji logistycznej wykonywanej za pomocą programu Vowpal Wabbit. (Regresja logistyczna pozwala uwzględnić mnóstwo — używając terminologii uczenia maszynowego — cech, cechą może być np. to, czy tekst zawiera jakieś konkretne słowo, czy nie. To najlepsze rozwiązanie jest do wglądu, każdy chętny może spróbować je ulepszyć. Jest to zresztą kopia najlepszego rozwiązania z pierwszej edycji „płciowego” wyzwania. (Przypominam, że w tym roku jest już druga edycja konkursu). Wówczas wynik był nieco wyższy (71,0%), ale od tego czasu przeczyściłem zbiory testowe pod kątem różnych „przecieków” zbyt łatwo ujawniających płeć piszącego, stąd niewielki spadek dokładności — w drugiej edycji jest po prostu nieco trudniej.

Kto da więcej? Irytujące, że w tym roku nie udało się przebić 70%. Może komuś się uda?

Tagi