.pl .en .de .ru
Interdyscyplinarny blog badawczy pracowników Instytutu Językoznawstwa i Pracowni Systemów Informacyjnych UAM

Seks-wyzwanie

Filip Graliński
11/16

Czy potrafisz rozpoznać płeć? Płeć autora krótkiego tekstu, na przykład takiego:

Przy okazji sie wydalo… Od zeszlego sylwestra odkrylem w sobie cos nowego i juz nie moge sie dluzej ukrywac :D

albo takiego:

Zanim natrafiłem na artykuł wykonałem już parę kroków, tj:

A, i nie ma tak łatwo — wszystkie pierwszosobowe konstrukcje ujawniające płeć zostały sprowadzone do form męskich, więc w powyższych tekstach w oryginale mogło być odkrylem albo odkrylam, natrafiłem albo natrafiłam (prawdę mówiąc tych właśnie form użyłem, żeby utworzyć korpus).

Oczywiście nie o to chodzi, żeby samemu odgadywać, lecz żeby wyuczyć do tego komputer (choć, skądinąd, ciekawe, jaki wynik osiągnąłby tu człowiek…). Zapraszam do wyzwania na platformie Gonito.net! (Gonito.net to otwartoźródłowa platforma do wyzwań z uczenia maszynowego [1]).

Jest to już druga edycja tego wyzwania, w pierwszej edycji [2] udało się uzyskać dokładność 71% [3] (czyli w 71% przypadków w zbiorze testowym program trafnie odgadywał płeć autora tekstu). Nie spodziewałem się był tak wysokiego wyniku (zważywszy, że teksty są krótkie, mają co najwyżej kilka zdań). Trzeba jednak przyznać, że korpus miał pewne niedoskonałości, np. „wycieki”, tj. pierwszoosobowe formy, których nie wykryłem i nie znormalizowałem do męskich. Dlatego przygotowałem drugie (mam nadzieję lepsze) wydanie korpusu. W drugiej edycji:

  • poprawiłem zrównoważenie domen — największe domeny (youtube.com, forum.gazeta.pl) rozbiłem na mniejsze części, by uniknąć tego, że duże podforum (np. o ciąży) ułatwia zadanie (notabene, teksty są zrównoważone — z każdego serwisu jest tylko samo tekstów męskich i żeńskich),

  • zatrzymałem wiele „wycieków” (nie wszystkie niestety…)

  • ulepszyłem filtr antyspamowy.

W drugiej edycji zbiór uczący składa się 3,6 mln tekstów (fifty-fifty męskich i kobiecych), czyli całkiem sporo, żeby nakarmić komputerowego „ucznia”. Zbiór testowy to 134 tys. tekstów.

Jaki wynik tym razem uda się wykręcić? Rywalizacja na Gonito.net otwarta!

1. Graliński F., Jaworski R., Borchmann Ł., Wierzchoń P. Gonito.net - Open Platform for Research Competition, Cooperation and Reproducibility. In: Branco, António and Nicoletta Calzolari and Khalid Choukri (eds.), Proceedings of the 4REAL Workshop: Workshop on Research Results Reproducibility and Resources Citation in Science and Technology of Language.; 2016:13–20. <http://4real.di.fc.ul.pt/wp-content/uploads/2016/04/4REALWorkshopProceedings.pdf>

2. Graliński F., Borchmann Ł., Wierzchoń P. ‘He Said She Said’ ― a Male/Female Corpus of Polish. In: Calzolari N., Choukri K., Declerck T., et al., eds. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). Paris, France: European Language Resources Association (ELRA); 2016. <http://www.lrec-conf.org/proceedings/lrec2016/pdf/905_Paper.pdf>

3. Graliński F., Jaworski R., Borchmann Ł., Wierzchoń P. Vive la Petite Différence! Exploiting Small Differences for Gender Attribution of Short Texts. Lecture Notes in Artificial Intelligence. 2016; 9924:54–61. <http://www.staff.amu.edu.pl/~rjawor/tsd-article.pdf>

Tagi