o językach

Korpusy językowe. Część druga, bardziej techniczna

W tym wpisie chciałabym pokazać bardziej zaawansowane opcje korpusów i jak je wykorzystywać do badań. Ten tekst jest skierowany do osób, które chciałyby naukowo zająć się korpusami i zastanawiają się, co można z nimi zrobić. Informacje tutaj niestety nie zastąpią warsztatów czy zajęć na uniwersytecie, ale mam nadzieję, że dadzą ogląd, co można z korpusami robić.

Korpus to zbiór tekstów i zanim przystąpimy do badań, dobrze wiedzieć, co w środku się znajduje. Przykładowo, w polskim korpusie NKJP znajdziemy teksty, które powstały w XIX wieku, np. książki Sienkiewicza, oraz teksty z 2010 (nowszych chyba nie ma). Jeśli chcemy zbadać jakieś zjawisko we współczesnej polszczyźnie i uznamy za taką polszczyznę z tekstów od lat 90., to musimy wykluczyć teksty Sienkiewicza. Kolejną istotną sprawą są gatunki tekstów. Zazwyczaj wydziela się publicystykę i literaturę piękną, w niektórych korpusach spotkamy się z literaturą naukową, czasem z poezją. Podział wynika z tego, że język używany w literaturze i publicystyce zwyczajnie się różni. Możemy zatem badać zjawiska wyłącznie na konkretnym rodzajów tekstów lub porównywać jak język zachowuje się w tekstach prasowych, a jak w beletrystyce. Informacja o autorze, roku powstania czy rodzaju tekstu to tzw. metadane. Jeśli już mamy je określone, możemy przejść do wyszukiwania.

Kolokacje

Bardzo przydatną funkcją korpusów, o której również wspomniałam w poprzednim wpisie, jest wyszukiwanie kolokacji, czyli połączeń wyrazowych. Po pierwsze kolokacje mówią nam z jakimi słowami łączy się wyszukiwany przez nas leksem. Na przykład dzięki aplikacji kolokator w NKJP dowiemy się, że pies łączy się z czasownikami szczekać, zaszczekać, pogrzebać, tropić, pogryźć. Znajdą się również czasowniki takie ujadać, zaskomleć czy zawarczeć, które razem ze szczekać możemy włączyć do grupy “dźwięki wydawane przez psa”. Wśród przymiotników znajdą się rodzaje psów – bezpański, łańcuchowy, policyjny i myśliwski. Wśród rzeczowników: ogrodnik, rasa, wilczur, jamnik, mieszaniec, dingo czy owczarek, czyli przeważają rasy czy rodzaje psów. 

Odrzućmy te słowa, które występują razem z “psem” we frazeologizmach (tu jest pies pogrzebany czy pies ogrodnika). Moim zdaniem najciekawsze w tym zestawieniu są rzeczowniki, ponieważ pojawiło się wiele hyponimów (czyli słów podrzędnych) do słowa “pies”. Nie pojawiły się żadne hyperonimy, czyli wyrazy nadrzędne, takie jak np. “zwierzę” czy “ssak”. Można wysnuć wniosek, że w większości tekstów, które są w korpusie, “pies” funkcjonuje jako hiperonim (wyraz nadrzędny) i tworzy kolokacje z hiponimami (wyrazami podrzędnymi). Można w ten sposób badać na przykład, jak w polskich tekstach pisanych postrzega się psa, w jakiej relacji jest słowo “pies” z innymi leksemami, itp.

Możemy wrócić też do “szczekać”. Skoro “szczekać” jest najczęstszym kolokatem, możemy przyjąć, że “szczekać” jest prototypowym dźwiękiem wydawanych przez psa, a wokół tej kategorii gdzieś będzie ujadanie, warczenie czy skomlenie.

Kolokacje informują nas zatem nie tylko o łączliwości wyrazowej, ale także o relacjach leksykalnych. Znajdziemy w kolokatach często synonimy, hiperonimy (wyrazy nadrzędne), hiponimy (podrzędne) czy antonimy (wyrazy o przeciwnym znaczeniu). Przydaje się do badań kognitywnych, językowego obrazu świata czy badania pól semantycznych.

Jest jeszcze jeden trochę oczywisty, ale dość ważny powód, dlaczego takie listy kolokacji są istotne. Takie zestawienia przydają się leksykografom przy tworzeniu słowników. Kiedy zajrzycie do jakiegokolwiek słownika, znajdziecie tam informacje o znaczeniu oraz synonimy czy przykłady kolokacji. Dużo łatwiej stworzyć hasła słownikowe, jeśli mamy listę najczęstszych połączeń wyrazowych opartą na ogromnym zbiorze danych. Taki słownik lepiej oddaje współczesne znaczenia.

Język zapytań w korpusie

Wspominałam już, że każde słowo jest tagowane ze względu na swoje właściwości gramatyczne i można w ten sposób słów wyszukiwać.

Podajmy przykład. Studentka polonistyki w Niemczech dowiedziała się, że w języku polskim dodaje się różne przedrostki do czasownika i przedrostki mogą diametralnie zmienić znaczenie, np. szukać i o-szukać, a czasami tylko zawężają znaczenie, np. iść i podejść. Może zajrzeć do słownika i kolejno wyszukiwać wszystkie derywaty, czyli słowa utworzone od innego słowa, np. szukać, oszukać, poszukać, wyszukać itp., ale może też to sprawdzić w polskim korpusie. Wpisuje do polskiego korpusu [base=”..*szukać”]. I jako wynik dostaje wszystkie konteksty z oszukać, przeszukać, wyszukać itp.

Znaki jak nawias, gwiazdka, cudzysłów itp. są używane w wielu korpusach i wyszukiwarkach. Jak prawdopodobnie się domyślacie, kropka to symbol zastępczy, gwiazdka z kolei informuje, o tym, że przed lub za danym ciągiem liter może wystąpić więcej niż jeden znak. Niemniej, żeby zrozumieć, co dokładnie oznaczają zawsze trzeba zajrzeć do instrukcji. Taka instrukcja powinna być dostępna na stronie każdego korpusu. Niestety mimo że korpusy działają na podobnej zasadzie, różnią się w szczegółach. Pocieszające jest, że kiedy nauczymy się pracować z jednym, z każdym kolejnym będzie łatwiej.

Idźmy do bardziej skomplikowanych zapytań w korpusie. Wspomniana już studentka slawistyki dowiedziała się, że w języku polskim można zdrabniać nawet przymiotniki, jej lektorka podała kilka przykładów, np. miła – milusia i milutka, grzeczny – grzeczniusi, ładne – ładniusie. Bardzo ciekawe zagadnienie, postanawia sprawdzić, jakie inne zdrobnienia można jeszcze znaleźć w języku polskim. Co mają wspólnego słowa milusia, grzeczniusi czy ładniuse? Są przymiotnikami i zawierają ciąg liter usi. Studentka zatem wyszukała wszystkie przymiotniki, które spełniają te warunki. Stworzyła takie zapytanie do wyszukiwarki: [base=”.*usi.*” & pos = adj] 

Base w polskim korpusie oznacza, że chcemy wyszukać wszystkie formy leksemu. Jeśli wpiszemy w wyszukiwarkę jedynie pies, korpus pokaże wyniki tylko dla formy w mianowniku, nie będzie tam innych from, np. w bierniku czy narzędniku (psa, psem). Żeby wyszukać wszystkie formy gramatyczne tego słowa, musimy wpisać [base= “”]. Kropka i gwiazdka przed literami usi oznacza, że przed tymi literami musi pojawić się dowolna ilość innych znaków, czyli wszystko co stoi przed usi w słowach milusia, ładniusia. Tę samą funkcję pełni gwiazdka po ciągu liter. Znak & oznacza, że ciąg liter musi spełniać inne wymogi. W naszym przypadku jest to pos czyli part of speech. Chcemy zawęzić wyszukiwanie do tych słów, które mają w sobie ciąg liter usi i dodatkowo są przymiotnikiem (adj). Zapytanie gotowe. Skąd znam te wszystkie skróty? Mam zawsze instrukcję pod ręką.

Wyniki w korpusie nie powalają, bo co prawda pojawia się malusi czy milusi, nawet bielusieńki, ale są też błędy, np. korpus wyszukał słowo tatusiowi, które przecież jest rzeczownikiem. Wyniki nieidealne, ale studentka uzyskała kilkadziesiąt przykładów zdrobnień. Nasza studentka postanawia napisać pracę semestralną o zdrobnieniach przymiotników w języku polskim. Stwierdziła, że porówna, ile jest zdrobnień typu milusi, a ile jest zdrobnień typu milutki. Musi zadać podobne zapytanie do poprzedniego, tyle, że zamiast ciągu liter -usi-, musi wpisać -utk-, jak grzeczniutki, króciutki, czyli  [base=”.*utk.*” & pos = adj]. My na szczęście nie musimy tutaj pisać pracy semestralnej, ale pobieżna obserwacja wskazuje, że zdecydowanie więcej przymiotników pojawia się z cząstką -utk- niż -usi-

Niestety z poziomu użytkownika polski korpus nie ma opcji tworzenia list frekwencyjnych, czyli list słów, uporządkowaną od najniższej frekwencji do najwyższej. Szkoda, bo z takich list możemy się dowiedzieć, które przymiotniki są zdrabniane najczęściej, a które rzadko.

Możecie stworzyć własny korpus…

jeśli interesują Was zjawiska językowe w tekstach, które w oficjalnych zbiorach się nie znalazły. Chcecie na przykład zbadać jakieś zjawisko w jezyku internetu, powiedzmy, że interesuje Was w którym miejscu w zdaniu użytkowniczki*użytkownicy używają “XD”: czy na końcu zdania, czy po jakimś słowie w środku zdania, itp. Musicie najpierw zebrać teksty, np. wypowiedzi na jakimś forum internetowym, najlepiej to robić w notatniku. Korpus możecie zaprogramować, choć pewnie łatwiejsze jest użycie jakiegoś softwaru dostępnego w internecie (ja nie używałam żadnego, ciężko mi coś polecić). Nie musicie anotować gramatyczne wszystkich słów, to nie jest praca dla jednej osoby. Sofware jak i odpowiedni kod (ja korzystałam z kodu w pythonie) dają opcję wyszukiwania. Zebraliście już teksty, macie swój korpus i możecie przystąpić do wyszukiwania “xd”, “XD”, “xD” czy “Xd” w tekstach, następnie możecie sprawdzić, w którym miejscu w zdaniu występują, policzyć i wyciągnąć wnioski

Liczenie i wyciąganie wniosków…

to nie jest prosta sprawa. Na filologiach uczy się głównie metod jakościowych, np. analizy dyskursu czy krytycznej analizy dyskursu. Metody jakościowe są bardzo ważne, moim zdaniem dużo ważniejsze w humanistyce niż metody ilościowe. Ostateczne, w naukach humanistycznych zanim coś policzymy, musimy to zoperacjonalizować. Zanim policzymy ile jest dwujęzycznych dzieci w klasie, musimy zdefiniować, co rozumiemy przez dwujęzyczne dzieci. Zanim zapytamy, jak często “przybliżać” używane jest w abstrakcyjnych kontekstach (np. każdy krok przybliża nas do sukcesu) a jak często w konkretnych (np. przybliżyła swoją twarz do mojej) też wymaga zdefiniowania, co rozumiemy przez kontekst abstrakcyjny i konkretny.

Jeśli już mamy wszystko zoperacjonalizowane, możemy przystąpić do policzenia, ile czego jest. Niestety, w badaniach ilościowych często nie wystarczy powiedzieć, że iksa jest więcej od igreka, a trzeba posłużyć się statystyką. Niestety nie znam żadnej książki do językoznawstwa korpusowego po polsku, natomiast mogę Wam polecić How to do Linguistics with R. Data exploration and statistical analysis Natalii Levshiny. W tej książce znajdziecie przykłady różnych badań z użyciem danych korpusowych oraz propozycje analiz statystycznych. Jest napisana prostym językiem i zarówno statystyka jak i pracowanie w R (programie do obróbki statystycznej) są jasno wyłożone. Bardzo często do niej zaglądam, kiedy mam wątpliwości, z jakiego testu skorzystać.

Jak się nauczyć pracy z korpusami czy statystyki? Warsztaty czy zajęcia na uniwersytecie są pomocne i nakierowują nas na odpowiednie tory, ale moje doświadczenia pokazują, że najlepiej nauczyć się tego na własnych badaniach. Oczywiście wymaga to czasu i cierpliwości, ale umiejętność badania danych ilościowych jest uniwersalna i przydaje się nie tylko w językoznawstwie. Korpusy z kolei mogą posłużyć nam do wielu badań. Możemy badać dzięki nim, jak jakieś pojęcia postrzegane są w języku, jak się język rozwija i jakie są tendencje.

1 myśl w temacie “Korpusy językowe. Część druga, bardziej techniczna”

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj /  Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj /  Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj /  Zmień )

Połączenie z %s