Korpusy językowe – jak z nich korzystać? Część pierwsza

Językoznawstwo korpusowe trudno nazwać oddzielną dziedziną, to raczej podejście do badań językoznawczych, w których dane uzyskiwane są za pomocą elektronicznych korpusów. Te korpusy tworzą często sami językoznawcy na swoje potrzeby, ale są również dostępne ogromne korpusy, z których może korzystać każda osoba zainteresowana językiem.

Ja najczęściej korzystam z korpusu polskiego (Narodowy Korpus Języka Polskiego, NKJP) oraz korpusu czeskiego (Czeski Narodowy Korpus, ČNK). Dużo lepiej orientuję się w czeskim korpusie, ponieważ na co dzień z nim pracuję. Czeski korpus dostarcza też więcej możliwości również dla osób, które czeskim się nie posługują, więc pokażę Wam kilka zastosowań na jego przykładzie. Kolejną jego zaletą jest przyjazny interfejs. Zahaczę również o korpusy języka niemieckiego i angielskiego. Pokażę absolutne podstawy, ponieważ mi samej biegłość w posługiwaniu się korpusami zajęła kilka warsztatów i kursów na uniwersytecie. Niemniej korzystam z nich nie tylko w pracy, ale również ucząc się, czy raczej podtrzymując kontakt z językiem i tłumacząc teksty.

Czym są korpusy?

Korpusy to po prostu zbiory tekstów. Dziś w językoznawstwie zazwyczaj przez korpus rozumie się elektroniczny zbiór tekstów, w którym można wyszukiwać wyrazy i ich różne formy, pojedyncze morfemy (części słów), zdania, frazy, części mowy. Poszczególne słowa są tagowane ręcznie lub automatycznie, to znaczy przypisuje im się kategorie gramatyczne. Przykładowo słowo pies ma tag rzeczownik, mianownik, rodzaj męski, a szczekał jest otagowane jako czasownik, czas przeszły, trzecia osoba liczby pojedynczej, aspekt niedokonany. Większość korpusów to korpusy tekstów pisanych, w których znajdziemy teksty publicystyczne, literaturę piękną, a czasem teksty naukowe. Językoznawczyniom służą do badań ilościowych. Jeśli w korpusach oprócz tekstów współczesnych mamy jakieś stare teksty (np. z XIX wieku), to możemy porównywać zmiany w języku. Ja np. ostatnio porównywałam, jak w zdaniu zachowują się czasowniki niedokonane o podobnym lub takim samym znaczeniu, np. oznaczać i znaczyć. Ktoś może badać różnice w konstrukcjach składniowych w publicystyce i literaturze pięknej, ktoś inny może chcieć porównywać zmiany w odmianie rzeczowników w XVI wieku, a jeszcze inna osoba może być zaciekawiona polem semantycznym słowa uchodźca. Korpusy dostarczają po prostu materiał do badań. Nie musimy zbierać tekstów z gazet czy książek, gdzie pojawia się dane słowo, a po prostu wyszukać je w korpusie.

Na próbę, wejdźcie na stronę NKJP (polski korpus) i spróbujcie wyszukać czasownika szczekać. Dodajcie dwie gwiazdki (**), żeby korpus wyszukał Wam wszystkie formy tego wyrazu, a nie tylko formę bezokolicznika. Te gwiazdki to element CQL(Contextual Query Language) – to trochę bardziej skomplikowana kwestia, opowiem o niej w następnym wpisie.

W wyszukiwarce NKJP wpisujemy zapytanie – chcemy znaleźć formy czasownika szczekać.

Korpus wyszukuje nam czasownik w kontekście, po prawej stronie mamy podane źródła. Korpus normalnie ma ustawione, że pokazuje tylko 10 wyników i w porządku alfabetycznym. Możecie to zmienić w ustawieniach. Kontekst również jest ograniczony, ale po kliknięciu na słowo pokaże Wam się fragment akapitu, w którym ono się znajduje.

Czy korpus może pomóc w nauce języka?

Moim zdaniem tak, ale nie oszukujmy się – potrzebny jest jakiś poziom filologicznej biegłości, tzn. musimy wiedzieć, że słowa mają różne znaczenia w zależności od kontekstu i nie zawsze w języku jest odpowiednik 1:1. Korpusy zostały stworzone z myślą o badaniach ilościowych i filologach, więc to nie jest dobre narzędzie dla każdego. Zresztą znacie pewnie internetowy słownik glosbe.com? To przykład słownika z wbudowanym korpusem paralelnym. Są tam więc przykłady tłumaczeń w różnych kontekstach i możemy zobaczyć, który odpowiednik jest najlepszy (nie zapomnę, kiedy jako dziecko przetłumaczyłam rząd foteli w kinie jako government).

Korpus pozwala zobaczyć nie tylko dane słowa w szerszym kontekście ale również zobaczyć jego łączliwość, np. przy naszym przykładzie ze szczekać można się dowiedzieć, że szczeka się na kogoś. Podobnie możemy zobaczyć z jakimi przyimkami łączą się np. niemieckie czasowniki. Do tego bardzo często korzystam z czeskiego korpusu paralelnego Intercorp. Możemy tam porównywać nie tylko czeski + jakiś inny język, ale także angielski + dowolny język. Przykładowo, na początku mojej przygody z czeskim dowiedziałam się, że rzadko używa się w nim imiesłowów przysłówkowych. Zastanawiałam się, w jaki inny sposób budują relacje czasowe. Wyszukałam w paralelnym korpusie polsko-czeskim imiesłów “zrobiwszy” i zobaczyłam, że Czesi częściej używają przysłówków, np. pak ‘potem’.

Przykładowy wynik zapytania w czeskim korpusie paralelnym

Nietrudno się domyślić, że takie paralelne korpusy mogą pomóc w tłumaczeniach. Dla mnie zawsze najtrudniejszą częścią wszelkich zadań tłumaczeniowych czy w ogóle nauki pisania w obcym języku było pozbycie się polskiej składni. Dzięki wyszukiwaniu w korpusie paralelnym różnych polskich spójników i porównywanie budowy zdań byłam w stanie uczynić moją składnię bardziej czeską.

Treq

Czeski korpus ma kilka zalet – ma w miarę przyjazny interfejs, jest dostępny po angielsku, ale trzeba się zarejestrować, po kilku dniach zespół korpusu przesyła mail z hasłem i wtedy uzyskuje się pełen dostęp. Moje absolutnie ulubione narzędzie jest na szczęście dostępne bez rejestracji i żeby zrozumieć, jak ono działa potrzeba kilka słów wyjaśnienia. Spróbujcie aplikacji Treq , jeśli macie po czesku, ustawcie sobie na angielski. To wspaniałe narzędzie dla tłumaczy i w ogóle osób na co dzień pracujących z językiem.

Wybierzcie język, np. polski – wyrażenia po polsku możecie tłumaczyć na czeski, angielski i od niedawna na hiszpański. Wpiszmy np. pies.

Działa to jak słownik, ale jednak nie do końca. Przyjrzyjmy się wynikom:

Są typowe odpowiedniki słowa pies, ale również jakieś dziwne słowa typu boy czy here. Treq to aplikacja, która wyszukuje na podstawie korpusów paralelnych i powie Wam, jak polskie słowo jest najczęściej tłumaczone na angielski/czeski/hiszpański oraz jakie inne słowa pojawiają się blisko angielskiego/czeskiego/hiszpańskiego odpowiednika. Obok najczęstszego odpowiednika dog dowiemy się, że z jakichś przyczyn częstym tłumaczeniem będzie też boy ‘chłopiec’. Dodatkowo, po kliknięciu na odpowiednik, otwiera się korpus paralelny, gdzie możemy porównać konteksty i tłumaczenia. Przyjrzyjmy się, o co chodzi z tym boy.

W większości to błąd, ale możecie zobaczyć, na podstawie jakich tekstów aplikacja tłumaczy słowa lub frazy. W korpusach paralelnych często znajdziemy napisy do filmów oraz bestsellery tłumaczone na kilka języków (np. Harry Potter). Możemy zatem porównywać słowa w pełnych kontekstach. Aplikacja Treq przydaje mi się na co dzień, ponieważ nie ma tyle dobrych słowników języka czeskiego, więc kiedy jakieś nieznane słowo pojawi się w książce, sprawdzam w Trequ. Bardzo polecam ją bohemist*kom.

Korpusy języka niemieckiego i angielskiego

Korpus języka niemieckiego połączony ze słownikami (DWDS – Digitales Wörterbuch der Deutschen Sprache)- może Wam posłużyć jako bardzo dobry słownik z mnóstwem filologicznych informacji. Moim zdaniem wygląda lepiej i jest bardziej dostosowany do użytkownika niż internetowa wersja Dudena. Znajdziecie tam informacje o etymologii, najczęstszych połączeniach wyrazowych (kolokacjach) oraz przykłady użycia (są też w każdym słowniku, ale w DWDS jest ich więcej). Nie trzeba się logować, żeby otrzymać dostęp do informacji.

Jest całe mnóstwo korpusów języka angielskiego i są dostosowane do potrzeb językoznawców. Będą zatem korpusy angielskiego brytyjskiego czy amerykańskiego i można porównywać różne warianty angielskiego. Pod tym linkiem znajdziecie kilkanaście z nich. Interfejs moim zdaniem jest dość nieprzyjazny, mało tego trzeba się zarejestrować (choć ja się zarejestrowałam, ale korpus wybitnie nie chce, bym z niego korzystała i za każdym razem mam problem z logowaniem). Zdarzyło mi się korzystać z British National Corpus, ale moim zdaniem cbardziej prektyczny jest korpus paralelny IntelliText. Jeśli chodzi o angielski, to wydaje mi się, że istnieje tyle dobrych słowników, że korpusy można zostawić do specjalistycznych badań.

Podsumowując

Jeśli jesteś osobą pracującą z językami, absolwent*ką filologii, tłumaczką*em sprawdź, czy istnieje korpus języka, z którego tłumaczysz lub się uczysz. Jestem pewna, że w przypadku dużych języków te korpusy są, ale zapewne nie każdy posiada interfejs przyjazny dla użytkownika. Kiedy już je znajdziecie – pobawcie się nimi, popróbujcie wyszukać jakieś słowo, sprawdźcie jakie możliwości dostarcza Wam korpus. Może przyda Wam się kiedyś do zrozumienia znaczenia jakiegoś słowa lub do tłumaczenia.