.pl .en .de .ru
Interdyscyplinarny blog badawczy pracowników Zakładu Infolingwistyki i Zakładu Przetwarzania Języka Naturalnego UAM

Zasoby

Dostępne w Internecie zasoby i narzędzia wypracowane przez nasz zespół

NFJP

Narodowy Fotokorpus Języka Polskiego

To największy zbiór leksykalny polszczyzny XX w. wraz z poświadczeniem cytatowym. Jego naczelną dystynktywną zasadą jest każdorazowe udokumentowanie ekscerptu w postaci fotodokumentacyjnej, tzn. w takiej, w jakiej ukazał się on w druku nim wszedł w nasze e-posiadanie.

Obserwacja leksykalna objęła okres 1901–2000, zaś za kryterium wyboru przyjęto brak jednostki w pierwszym słowniku ortograficznym XX wieku – Słowniku ortograficznym języka polskiego Władysława Kokowskiego z roku 1903.

Za sprawą przyjętych założeń baza ta poważnie uzupełnia obecną wiedzę o zasobach leksykalnych polszczyzny, ponieważ otrzymany zbiór jednostek obejmuje pozycje w dużej mierze w ogóle nieznane polskiej leksykografii lub takie, dla których wysuwanpóźniejsze hipotezy chronologizacyjne.

Gonito

Platforma do wyzwań z uczenia maszynowego

Gonito.net jest otwartoźródłową, webową platformą służącą do hostowania wyzwań z uczenia maszynowego. Obecnie zawiera przede wszystkim rywalizacje w zakresie przetwarzania języka naturalnego, takie jak:

  • RetroC — ustal, w którym roku powstał tekst,
  • Nekrologi — wykryj nekrologii w polskich gazetach,
  • Zdrowe słowa — określ czy słowoforma jest realizacją poprawnego słowa w języku polskim,
  • He Said She Said — zgadnij, czy tekst był napisany przez mężczyznę czy kobietę.

Poza aspektem (g)rywalizacji serwis umożliwia współpracę między badaczami, poprzez wbudowane mechanizmy dzielenia się wypracowanym rozwiązaniem oraz jego doskonalenia. Bazują one na Gicie – popularnym systemie kontroli wersji, co odróżnia Gonito od podobnych serwisów takich jak Kaggle czy CodaLab.