Przejdź do treści

Jak zostało zaprojektowane i stworzone LEPISZCZE, czyli kompleksowy benchmark zadań przetwarzania języka naturalnego dla języka polskiego

Zapraszamy na kolejne seminarium z cyklu AI/BigData w piątek, 16 grudnia 2022 r. o godz. 10.30. Tym razem będzie o narzędziach do trenowania modeli językowych.
Łukasz Augustyniak z Katedry Sztucznej Inteligencji (Wydział Informatyki i Telekomunikacji, Politechnika Wrocławska) wyjaśni Jak zostało zaprojektowane i stworzone LEPISZCZE, czyli kompleksowy benchmark zadań przetwarzania języka naturalnego dla języka polskiego.

Coraz szersza dostępność zasobów obliczeniowych i danych do trenowania dużych modeli językowych zwiększa zapotrzebowanie na tworzenie solidnych środowisk ewaluacyjnych pozwalających na rzetelne oszacowanie postępów w modelowaniu języka. W ostatnich latach zauważalny jest znaczący postęp prac nad standaryzacją środowisk ewaluacyjnych dla języka angielskiego. Środowiska takie jak GLUE, SuperGLUE czy KILT stały się standardowymi narzędziami do oceny modeli językowych. W tworzeniu środowisk dla innych języków wielu badaczy koncentrowało się na replikowaniu środowiska GLUE, czego przykładem jest polski benchmark KLEJ.

Podczas seminarium omówiona będzie praca poświęcona narzędziu LEPISZCZE. Autorzy przedstawiają przegląd prac nad tworzeniem środowisk ewaluacyjnych dla języków niskozasobowych. Pokazują, że wciąż wiele języków nie posiada wyczerpującego zestawu danych testowych do oceny modeli językowych. Wskazują obecne w środowiskach ewaluacyjnych luki i porównują dostępne w ramach tych środowisk zadania, odnosząc się przy tym do języka angielskiego i języka chińskiego – języków o licznych zasobach treningowo-testowych.

Głównym wynikiem pracy jest LEPISZCZE – nowe środowisko ewaluacyjne dla polskiej technologii językowej opartej na modelowaniu języka, z szerokim zestawem różnorodnych zadań testowych. Zaproponowane środowisko zostało zaprojektowane z myślą o elastyczności w dodawaniu zadań, wprowadzaniu nowych modeli językowych, nadsyłaniu wyników oraz wersjonowaniu danych i modeli. Autorzy wraz ze środowiskiem dostarczają również ocenę kilku nowych modeli językowych oraz dołączają zarówno poprawione zbiory istniejące w literaturze, jak również i nowe zbiory testowe dla nowych zadań. W środowisku zawarto 5 istniejących zbiorów danych i 8 nowych zbiorów danych, które dotychczas nie były używane w ewaluacji modeli językowych. W pracy zawarto również doświadczenia i wnioski wynikające z pracy nad tworzeniem środowiska ewaluacyjnego LEPISZCZE jako wskazówki dla projektantów podobnych środowisk w innych językach o ograniczonych zasobach językowych.

Informacja dotycząca plików cookies

Serwis Narodowego Centrum Kompetencji HPC używa plików cookies (ciasteczek od ang. cookie – ciastko), czyli informacji zapisywanych na urządzeniach użytkowników w formie małych plików tekstowych. Dane te potwierdzają, że użytkownik odwiedził stronę internetową i pozwalają rozpoznawać jego urządzenie oraz dostosować kolejne wyświetlenia strony do jego preferencji. Pliki cookies używane przez serwis NCK nie przechowują żadnych danych osobowych użytkowników ani informacji, które pomogłyby ich zidentyfikować, rozpoznają jedynie przeglądarkę konkretnego urządzenia.

Ciasteczka są niezbędne do prawidłowego funkcjonowania serwisu, pomagają dostosować zawartość strony do preferencji użytkownika. Dostarczają danych statystycznych dotyczących ruchu na stronie.
Więcej o tym, czym są pliki cookies, można przeczytać na stronie: https://wszystkoociasteczkach.pl/

Strony internetowe (serwis NCK także) domyślnie dopuszczają zapisywanie plików cookies, co można zmienić w każdej chwili tak, aby zablokować automatyczne dodawanie ciasteczek, albo każdorazowo informować o ich przesłaniu. Należy pamiętać, że wyłączenie możliwości zapisywania plików cookies może zaburzać niektóre funkcje strony lub uniemożliwić korzystanie z części usług.

Skip to content