o językach

Język hawajski, Filipiny i Wikipedia

Są różne podejścia do Wikipedii. Ze szkoły pamiętam głównie te sceptyczne, by nie ufać wszystkiemu, co tam jest napisane, jednocześnie nikt nie uczył nas weryfikacji danych. Dziś Fundacja Wikipedii dba o standardy, chociaż oczywiście nie da się uniknąć błędów i wpadek. Osobiście uwielbiam Wikipedię z kilku względów: szybko można zdobyć jakieś podstawowe informacje, często są tam też źródła, jeśli chce się pogłębić research. Jest też cennym zbiorem tekstów naukowych, które wykorzystuje się w językoznawstwie korpusowym. W swoim wpisie o korpusach tłumaczyłam, że korpusy to duże elektroniczne zbiory tekstów z interfejsem umożliwiającym wyszukiwanie. W związku z tym, że teksty na Wikipedii są w wolnym dostępie i już w postaci elektronicznej, łatwo stworzyć z nich korpus i badać rejestry naukowe różnych języków. Oczywiście należy wspomnieć również o tym, jak bardzo przydaje się funkcja wyboru wersji językowej artykułu, która jest niezastąpiona, kiedy trzeba szybko przetłumaczyć specjalistyczne terminy.

Wikipedia powstała na początku 2001 r. i jej nazwa jest ciekawa, ponieważ w oczywisty sposób nawiązuje do encyklopedii, ale jest to neologizm złożony z hawajskiego wiki ‘szybko’ i greckiego elementu paideia ‘edukacja, wychowanie’. Dziś wiki zyskało niemal status prefiksu czy prefiksoidu i dodanie tego do jakiejś nazwy od razu sugeruje zbiór danych, np. WikiTongues (to zbiór dokumentacji językowej zagrożonych lub niereprezentowanych języków). Wiki to zapewne najczęściej pojawiające się zapożyczenie z języka hawajskiego, o którym wiele osób nie wie, że pochodzi z hawajskiego. Nie mam co prawda żadnych danych, ale po sukcesie tego słowa i jak dobrze odnajduje się w funkcji przedrostka, myślę, że moje stwierdzenie nie jest dalekie od prawdy.

Na początku Wikipedia funkcjonowała w języku angielskim, ale szybko pojawiły się wersje niemiecka i katalońska, potem francuska i szwedzka, a dziś jest 312 wersji językowych Wikipedii. Polska wersja jest jedną z większych. Liczy prawie półtora miliona artykułów i znajduje się w top10 odwiedzanych (co prawda na 10 miejscu). Poniżej wykres:

źródło to oczywiście Wikipedia: https://en.wikipedia.org/wiki/List_of_Wikipedias

Angielska wersja Wikipedii jest największa, ale to pewnie nie jest zaskoczenie. Jakie języki mogłyby się znaleźć na dalszych miejscach? Obstawiałabym hiszpański czy mandaryński (chociaż Chiny ograniczają dostęp do Wikipedii). Natomiast jeśli spojrzymy na poniższy wykres, to na drugim miejscu jest język cebuański i na trzecim szwedzki. Co one tam w ogóle robią i gdzie się mówi po cebuańsku?

Źródło: Wikipedia

Cebuański to język, którym posługuje się ponad 16 mln. osób na Filipinach, Szwedzkim z kolei ok. 10 mln. osób. Czy użytkownicy cebuańskiego na Filipinach są tak zapalonymi wikipedyst*kami i piszą tyle artykułów? Czy Szwedzi podobnie jak Filipińczycy tak bardzo cenią Wikipedię? Nie do końca. Za wszystkim stoi pewien szwedzki fizyk, Sverker Johansson, który stworzył Lsjbota. Lsjbot to bot, który napisał większość artykułów po szwedzku i po cebuańsku, ponieważ cebuański to pierwszy język żony Johanssona.

Zastanawiałam się, jak ten Lsjbot funkcjonował, czy tłumaczył artykuły z angielskiego? Ale tłumaczenie maszynowe jest skomplikowane. Otóż Lsjbot korzystał z innych repozytoriów wiedzy. Najpierw wybierał jakąś kategorię semantyczną, np. ‘góry’, która do opisu potrzebuje takich słów jak ‘dolina’, ‘szczyt’ czy skała’. Następnie szukał takich repozytoriów, które mógł odczytać, a te znajdziemy np. w GeoNames. Nie bez powodów wspomniałam o górach czy GeoNames, ponieważ Lsjbot pisał głównie artykuły o środowisku naturalnym.

Lsjobot był w stanie napisać 10 tys. artykułów dziennie po cebuańsku i szwedzku, jest także odpowiedzialny za większość artykułów w języku warajskim, którym posługują się mieszkańcy Filipin. Szczyt działalności bota przypada na lata 2013 i 2014, dziś już nie funkcjonuje tak prężnie: szwedzka społeczność wikipedystów*ek stwierdziła, że bot nie powinien już pisać artykułów, a część z tych napisanych przez program została skasowana. Bot nie tworzy także już artykułów po warajsku ani po cebuańsku, chociaż w przypadku tej ostatniej wersji dokonuje jakichś aktualizacji.

Tworzeniem artykułów na Wikipedii zajmują się także aktywiści oraz różne organizacje. Biblioteka Narodowa na przykład współpracowała z Wikipedią i uzupełniaja biogramy pisarzy i pisarek. Wikipedia jest ogromnym wiedzy i jako oddolna inicjatywa pozwala, by tę wiedzę uzupełniać o historię grup wykluczonych. Osoby związane z organizacją Whose Knowledge tworzyły artykuły odnośnie do historii Dalitów (w Indiach: ludzie z niższych kast lub poza systemem kastowym), czy historii queerowych osób z Bośni i Hercegowiny. Tłumacze Bez Granic z kolei uzupełniali artykuły z dziedziny medycyny w niedoreprezentowanych językach.

Literatura (czy kogoś zdziwi, jeśli bibliografia to głównie Wikipedia?)

Dane na temat wersji językowych Wikipedii

Historia Lsjobota, cebuańskiej Wikipedii, warajskiej Wikipedii

Kyle Wilson, 2020, The World’s Second Largest Wikipedia Is Written Almost Entirely by One Bot, Vice, dostęp: https://www.vice.com/en/article/4agamm/the-worlds-second-largest-wikipedia-is-written-almost-entirely-by-one-bot

Korpesondencja Warda Cunninghama o słowie Wiki

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj /  Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj /  Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj /  Zmień )

Połączenie z %s