o językach

Korpusy językowe: frekwencja, hapax legomena, Zipf i pantałyk

Korpusy to – jak już dobrze wiecie – ogromne zbiory tekstów, które służą m.in. do badań ilościowych w językoznawstwie. Ich ogromną zaletą jest to, że dają nam informacje o tym, jak często jakieś słowa, formy gramatyczne, czy połączenia wyrazowe pojawiają się w języku. Innymi słowy, wszystko kręci się wokół frekwencji.

Reprezentatywność

Napisałam, że korpusy to ogromne zbiory tekstów, ale wielkość tych korpusów jest różna. Oczywiście im więcej tekstów, tym większe prawdopodobieństwo, że korpus będzie lepiej oddawał stan języka, zazwyczaj te duże korpusy kilkadziesiąt milionów słów graficznych. Ale nie tylko ilość się liczy. Najczęściej korpusy są tak zbudowane, by zawierały różne rodzaje tekstów, np. publicystykę, literaturę piękną czy teksty naukowe, czasem też język używany w internecie (np. treści postów na forach). Chodzi o to, żeby teksty reprezentowały różne rejestry języka. Taki podział też zakłada, że trochę innego języka się używa w powieści, trochę innego w artykule prasowym i jeszcze innego w książce naukowej, nie wspominając już o internecie. Taki korpus, który zawiera dostatecznie dużo zróżnicowanych tekstów, nazywamy korpusem reprezentatywnym. To znaczy, że reprezentuje akiś język w dużym stopniu j, bo oczywiście żaden korpus nie jest w stanie oddać całkowicie stanu danego języka.

Dlaczego frekwencja jest ważna?

Zapewne intuicja Wam podpowiada, że częstsze słowo ma większą szansę trafić do słownika niż rzadsze. Co więcej, pewnie uczyłyście się kiedyś jakiegoś języka obcego, i wiecie, że na początku nauki uczymy się tych słów, które mają większą częstotliwość w jakimś języku, tzn. kiedy ktoś uczy się polskiego jako obcego, w pierwszej kolejności nauczy się “przepraszam”, a na późniejszym etapie dojdzie słownictwo typu “pantałyk” (do pantałyku jeszcze wrócimy).

Skoro moje doświadczenie dotyczy głównie pracy z czeskim korpusem, to muszę wspomnieć o Janie Amosu Komenskym, którym zbiegł z terenów dzisiejszych Czech do Leszna, gdzie pracował nad swoimi pracami dotyczącymi pedagogiki i językoznawstwa. W 1631 wydał podręcznik do łaciny Janua linguarum reserata, “Drzwi języków otwarte”, w którym stwierdził, że łatwiej się zapamięta nowe słowa, kiedy zostaną podane w kontekście, ale też zauważył, że częstotliwość danego słowa ma wpływ na to, jak szybko uczniowie je przyswajają.

Pierwsza lista frekwencyjna, czyli lista słów uporządkowanych według frekwencji, jak podaje wspaniała kognitywistka, Dagmar Divjak, została stworzona pod koniec XIX w. w Niemczech na potrzeby stenografistów i składała się głównie z tekstów prawniczych. W 1911 została wydana lista 6 tys. najczęstszych angielskich słów dla nauczycieli, dziesięć lat później wydano listę, która zawierała już 10 tys. słów. Te listy miały służyć nauczyciel*kom jako pomoc w nauczaniu czytania i pisania. W latach 60. z kolei pojawiły się korpusy językowe i tworzono już listy frekwencyjne przy użyciu komputerów. Takie listy są przydatne przy tworzeniu słowników czy programów nauczania języków ojczystych czy obcych. Równie przydatne w nauce języka i leksykografii są frekwencje połączeń wyrazowych, o tym wspomnę poniżej. Najpierw przedstawię Wam podstawowe pojęcia związane z frekwencją.

Tokeny i typy

Popatrzmy na dwa zdania:

  1. Pies zobaczył kota.
  2. Pies zobaczył innego psa.

W pierwszym zdaniu mam trzy słowa, w drugim cztery. Mówiąc po korpusowemu w pierwszym zdaniu mamy trzy tokeny, a w drugim cztery. Token to graficzne słowo, ciąg liter od spacji do spacji. Oba zdania mają jednak trzy typy. W zdaniu (1) typy to: pies, zobaczyć, kot, a w zdaniu (2): pies, zobaczyć, inny. W pierwszym zdaniu każde słowo pojawiło się raz, w drugim z kolei słowo ‘pies’ pojawia się dwa razy. Zatem mamy dwa tokeny, ale jeden typ. Typ to abstrakcyjna jednostka, które reprezentuje jakieś słowo niezależnie od jego formy gramatycznej. Weźmy inny przykład:

  1. Człowiek człowiekowi wilkiem.

Zdanie ma dwa typy: człowiek i wilk, ale trzy tokeny, człowiek w mianowniku, człowiek w celowniku i wilk w narzędniku. Weźmy jeszcze inne zdanie:

  1. Człowiek człowiekowi człowiekiem.

Zdanie składa się z trzech słów, czyli trzech tokenów, ale z jednego typu: człowiek.

Możemy mierzyć proporcję między typami i tokenami (type-token ratio), np. w zdaniu (1) ten stosunek tokenów do typów jest 1:1, mamy trzy tokeny i każdy reprezentuje jeden typ. W zdaniu (4) stosunek typów i tokenów to 1:3: mamy trzy tokeny, ale typ jest jeden. Ten wskaźnik jest przydatny w dłuższych tekstach. Może wskazać na bogactwo językowe. W literaturze pięknej spodziewamy się na przykład, że słownictwo będzie różnorodne, czyli, mówiąc po korpusowemu, będzie więcej typów. W tekście naukowym z kolei spodziewamy się, że słownictwo będzie mniej różnorodne, np. w podręczniku do językoznawstwa będzie mniej wyrafinowanych metafor i porównań i słownictwo będzie dotyczyło języka. 

Tokeny, czyli te graficzne słowa, są jednak w językoznawstwie korpusowym najważniejsze, to one po prostu wskazują na częstotliwość pojawiania się słowa. Czeski korpus synchroniczny ma np. 120 mln tokenów, czyli składają się na niego teksty, które mają łącznie 120 mln graficznych słów, a jeśli odejmiemy znaki interpunkcyjne, to jest tych słów ponad 100 mln, ale typów słów jest ok 1,7 mln. 

Dodatkowo frekwencja tokenów jest ważna, ponieważ informuje nas, w jakiej formie najczęściej spotkamy dane słowo. Niektóre słowa częściej spotkamy w formie imiesłowu, inne w liczbie mnogiej, itp. Dobrym przykładem jest “pantałyk”. Mamy idiom zbić z pantałyku, słowo “pantałyk” nie występuje w żadnym innym połączeniu wyrazowym, w żadnej innej formie poza dopełniaczem liczby pojedynczej, więc ta będzie tą najczęstszą.

Jak jesteśmy przy pantałyku…

to przypomnijmy sobie informacje o kolokacjach i relacjach między słowami. Wspominałam o tym w poprzednim wpisie, że w korpusach można sprawdzić z jak słowa łączą się ze sobą nawzajem i jakie relacje między nimi zachodzą. Zdolność łączenia się słów ze sobą nazywa się angielskim terminem collocability, nie znalazłam nigdzie polskiego tłumaczenia. Bardzo ciekawe są słowa, które mają zdolność łączenia się z ograniczoną liczbą słów lub z jednym słowem, takie coś nazywamy monocollocability i tu dobrym przykładem będzie wspomniany przed momentem “pantałyk”. Jak się pewnie domyślacie, takie ograniczenie tworzenia połączeń wyrazowych (czyli kolokacji) dotyczy głównie związków frazeologicznych.

Hapax legomena

Hapax legomenon (hapax legomena w liczbie mnogiej, ja używam “hapax” w skrócie) to z greckiego słowo, które pojawiło się w jakimś tekście tylko raz. Mówiliśmy o podręczniku łaciny, teraz porozmawiajmy o Biblii. W hebrajskiej części Biblii pojawiają się takie słowa, które wystąpiły tylko raz i to jest dość problematyczne, ponieważ łatwiej wysnuć znaczenie jakiegoś słowa, jeśli pojawia się w kilku kontekstach. Takie słowa oczywiście zobaczymy także w korpusach i  zazwyczaj są to słowa z literówkami, ale zdarzają się też neologizmy. Ciekawie pod względem hapaksów wyglądają badania korpusowe na podstawie twórczości jednego autora. Przykładowo bierzemy wszystko co napisał Prus i sprawdzamy, jakie słowa pojawiły się w jego twórczości tylko raz. Równie ciekawie wyglądałoby porównywanie twórczości kilku autorów pod względem type/token ratio i rozkładu hapaksów. Zazwyczaj unika się dodawania poezji do korpusów, bo poezja rządzi się swoimi prawami i nie jest reprezentatywna dla języka, ale wyobrażam sobie, że można by w ten sposób zbadać twórczość autorów i sprawdzić, jak zmieniała frekwencja słów czy hapaksy z tomiku na tomik.

Hapaksy są jednak istotne do badania produktywności jakiegoś zjawiska, czyli tego, jak często jakieś zjawisko występuje w języku. W tym momencie w polszczyźnie jest produktywny sufiks –ara, do określania kobiet mających jakieś upodobania, np. koniara, jesieniara, itp. Sufiks można dodać praktycznie do wszystkiego, lubisz herbatę? Mamy herbaciarę. Lubisz koty? I cyk, kociara. Część tych słów ma już dość wysoką frekwencję, jak wspomniana jesieniara, ale produktywność mierzymy m.in. tym, ile powstało takich okazjonalizmów, które ktoś stworzył raz, na potrzeby chwili,  jak np. długopisiara. Oznacza to, że wzorzec tworzenia nazw osób lubiących coś jest powszechny, nieograniczony do częstych form, więc jest produktywny, więc liczba tych pojedynczych słów z sufiksem -ara, czyli naszych hapaksów, jest duża. Podobnie mamy ze śpiulkolotem. Swego czasu były popularne memy z innymi pojazdami, typu śpiulkowóz czy nawet śpiulkoczołg, ten model tworzenia słów był w danym odcinku czasu produktywny.

Ranga i polisemia

Przejdźmy zatem do prawidłowości, które możemy zaobserwować w związku z frekwencją, które w językoznawstwie znane są jako prawa Zipfa (choć raczej trzeba mówić tutaj o prawidłowościach).

Pierwsze prawo Zipfa mówi o tym, że częstotliwość danego słowa jest odwrotnie proporcjonalna do jego rangi. Na przykład jeśli policzymy wszystkie słowa w tekście,  ułożymy je od najczęstszego do najrzadszego i każdemu słowu przydzielimy numer porządkowy (rangę), to słowa o wysokiej frekwencji będą miały niski numer porządkowy, a te o niskiej frekwencji – wysoki. Jednymi z najczęstszych słów w polskich tekstach są spójniki “i” lub “ale”, więc będą będą miały numer porządkowy 1. lub 2. Rozkład słów wygląda wtedy w ten sposób:

Rozkład frekwencji słów w korpusie zawierającym tylko teksty Karla Čapka, , źródło

Drugą prawidłowością, którą zauważył Zipf jest to, że więcej w korpusie jest słów z niską frekwencją niż z tą wysoką, co też jest zgodne z intuicją. Jeśli weźmiemy słownik i sprawdzimy, których słów z tego słownika używamy naprawdę często, to wyjdzie ich zapewne garstka. Kolejne prawo Zipfa mówi o tym, że im większa frekwencja jakiegoś słowa, tym jest ono bardziej polisemiczne. Na podstawie moich doświadczeń mogę powiedzieć, że to prawo działa, ale też czasem ciężko oddzielić poszczególne znaczenia.

Tym tekstem chciałam przybliżyć Wam kolejne zagadnienia związane z badaniami ilościowymi w językoznawstwie i językoznawstwem korpusowym. Zróbmy krótkie podsumowanie:

– frekwencja słów oraz połączeń wyrazowych jest przydatna do tworzenia słowników i nauczania języków ojczystych czy obcych;

– korpusy składają się z tokenów, a tokeny reprezentują jakieś typy słów

– ważnym pojęciem w językoznawstwie korpusowym oraz w badaniach ilościowych są hapaksy. Hapax legomena to słowa, które w korpusie pojawiły się tylko raz.

– kiedy przyjrzymy się większym zbiorom tekstów, to zobaczymy kilka prawidłowości, które opisują prawa Zipfa.

Więcej o korpusach dowiesz z moich poprzednich wpisów tutaj i tutaj.

Bibliografia

Baayen, R. (2009). 41. Corpus linguistics in morphology: Morphological productivity. In A. Lüdeling & M. Kytö (Ed.), Volume 2: An International Handbook (pp. 899-919). Berlin, New York: De Gruyter Mouton. https://doi.org/10.1515/9783110213881.2.899

Divjak, D. (2019). Frequency in Language: Memory, Attention and Learning. Cambridge: Cambridge University Press. doi:10.1017/9781316084410

Wiele informacji znajdziecie także na stronie czeskiego korpusu, niestety głównie po czesku.

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj /  Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj /  Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj /  Zmień )

Połączenie z %s