.pl .en .de .ru
Interdyscyplinarny blog badawczy pracowników Zakładu Infolingwistyki i Zakładu Przetwarzania Języka Naturalnego UAM

Zdrowe słowa — wyzwanie

Rafał Jaworski
12/11

Na platformie Gonito.net ruszyło kolejne wyzwanie. Tym razem szukamy poprawnych, czyli „zdrowych” słów w całym oceanie przeróżnych OCR-owych śmieci.

Chętnych do wzięcia udziału w wyzwaniu zapraszamy w to miejsce. Wyzwanie polega na napisaniu programu zgadującego, czy dane słowo jest poprawnym słowem w danej dziedzinie.

A skąd są te słowa?

Pochodzą ze starych, OCR-owanych polskich dokumentów.

Proszę Pana, ale to jest przecież bardzo proste, są słowniki dziedzinowe, Wikipedia, itp…

Tak, ale z naszego zbioru słów wyrzuciliśmy słowa, które znajdowały się w popularnych polskich słownikach.

Aha. To co zostało?

Cała masa OCR-owych śmieci oraz słowa bardzo interesujące, jak choćby anomalistyczny, antycyklonarny, zeskórniały

Czyli ktoś to już przeglądał?

Tak, przeszło 66 000 słów zostało ręcznie (sic!) przejrzanych. Na podstawie tych słów przygotowaliśmy zbiór trenujący, deweloperski i testowy.

A jaki odsetek tych słów został zaakceptowany przez ludzi?

Około 5%.

No dobra, to robię program, który zawsze zgaduje, że słowo jest niepoprawne. Mam 95% skuteczności. I co mi zrobicie?

Właśnie dlatego stosujemy miary precision i recall. Wynikiem branym pod uwagę jest F2-score obliczony na podstawie tych dwóch miar.

No dobrze. W takim razie, jakie są dane wejściowe? Słowo i domena?

Tak, mamy domenę, słowo, a dodatkowo jeszcze frekwencję słowa w tekstach źródłowych.

Kiedy mogę zacząć?

Choćby teraz!

Tagi