Monco PL to wyszukiwarka korpusowa, która pomaga znaleźć przykłady użycia wyrazów, fraz oraz wzorców leksykalno-gramatycznych w autentycznych próbkach współczesnej polszczyzny.
Indeks wyszukiwarki zawiera obecnie ok. 8 miliardów segmentów słów i jest codziennie aktualizowany. Tak duży indeks pozwala znaleźć przykłady nawet bardzo rzadkich fraz i jednostek leksykalnych. Dodatkową zaletą stałej atkualizacji indeksu jest możliwość wyszukiwania neologizmów, neosemantyzmów i zapożyczeń, które pojawiły się w polszczyźnie w ciągu kilku ostatnich lat (zob. np. Fejs, leming, selfie).
Monco obsługuje zapytania o słowowformy, frazy, proste wzorce leksykalno-gramatyczne oraz rozszerzenia ortograficzne i morfologiczne. Na tej stronie objaśniamy najważniejsze elementy składni naszej wyszukiwarki.
Aby uzyskać konkordancje dokładnych dopasowań pojedynczych słowoform lub fraz składających się z dwóch lub więcej słowoform, należy je wpisać w polu wyszukiwania i wcisnąć ikonę lupy. Wielkość liter nie ma znaczenia w zapytaniach. Prosimy nie wpisywać fraz w cudzysłowach.
Po wpisaniu zapytania:
powinniśmy otrzymać tabelę zawierającą co najmniej 20 konkordancji, np.:Konkordancji na danej stronie może być więcej niż mógłaby to sugerować wybrana przez użytkownika wartość opcji limitu, jeżeli co najmniej jedno z pobranych z indeksu zdań zawiera więcej niż jeden kontekst pasujący do zapytania. Poza samym dopasowaniem i jego kontekstem, domyślnie wyświetlane są kolumny z nazwą źródła (portalu), z którego pochodzi cytat oraz datą publikacji tekstu. Nazwa źródła jest równocześnie bezpośrednim odnośnikiem do oryginalnej strony z pełną wersją tekstu (która może być w chwili wyświetlenia konkordancji nieaktywna). Warto pamiętać, że możliwe jest wyświetlenie kilku dodatkowych lub ukrycie aktualnie wyświetlanych kolumn z metadanymi. Aktualnie, na jednej stronie można wyświetlić do 1000 konkordancji. Przechodzenie między kolejnymi stronami wyników umożliwiają kontrolki u dołu tabeli. Wykryte w bieżących wynikach duplikaty kontekstów są przekreślane i wyszarzane, co pozwala na ich szybką identyfikację.
Poniżej podajemy przykłady zapytań o dokładne wystąpienia fraz:
Niezwykle istotnym elementem składni wyszukiwarki dla korpusu polszczyzny są tzw. rozszerzenia morfologiczne, czyli możliwość wyszukania wariantów morfologicznych zadanej formy podstawowej. Dwa przykłady takich zapytań dla słów i prostych fraz przedstawiamy poniżej:
Wyniki uzyskane wskutek automatycznego rozszerzenia morfologicznego mogą nie być pełne. Nie wszystkie formy podstawowe zostały poprawnie rozpoznane w indeksie. Istnieją dwa sposoby na zwiększenie pokrycia form morfologicznych w zapytaniu. Po pierwsze, możliwe jest wymienienie wszystkich wariantów morfologicznych, które mają być uwzględnione na danej pozycji, np.:
Po drugie, możliwe jest zastosowanie rozszerzenia ortograficznego, które jednak może dać nadmiarowe wyniki, np.Operator wariantu | został już częściowo wprowadzony. Warto pamiętać, że można go używać również do rozszerzeń leksykalnych, np.:
Wyszukiwarka Monco umożliwia stosunkowo wygodne wyszukiwanie różnego rodzaju związków wyrazowych, np. idiomów, formuł konwersacyjnych, kolokacji a także nieutrwalonych kombinacji wielowyrazowych. Czasem niemożliwe jest określenie z góry dokładnego zbioru, kolejności a nawet relacji gramatycznych dla wyrazów tworzących taki związek lub frazę. Formułując zapytanie o frazy możemy zwiększyć pokrycie zwracanego zbioru wyników poprzez odpowiednie ustawienie parametru odstępu. Domyślnie jego wartość wynosi 0, co oznacza, że między kolejnym pozycjami dopasowania wyrażanymi terminami zapytania nie może wystąpić żaden wyraz.
Dla przykładu, zapytanie 'głowa** hydra**' z domyślnym ustawieniem odstępu zwróci jedynie konteksty w których te terminy zapytania występują bezpośrednio obok siebie. Wyrazy te jednak tworzą często figuratywną kolokację realizowaną w różnych konfiguracjach gramatycznych. Po zwiększeniu wartości tego parametru do 4 wśród wyników znajdą się m. in. takie dopasowania:
Jeszcze większe pokrycie w tym przypadku można uzyskać poprzez odznaczenie opcji "Zachowaj szyk", co widać w wynikach poniższego zapytania:
Poza podanymi powyżej kontekstami widzimy tu również takie dopasowania, w których wyraz 'głowa' występuje przed wyrazem 'hydra':
Wyszukiwarka Monco umożliwia również definiowanie prostych wzorców leksykalno-gramatycznych. Kategorie morfosyntaktyczne można definiować używając specjalnej składni: <tag=XX>, gdzie XX to znacznik określający część mowy i inne kategorie gramatyczne słowa zgodnie z tagsetem NKJP. Załóżmy, że interesują nas przymiotniki występujące przez słowem 'wiara'. Poniższe zapytanie wymusza dopasowanie wystąpienia przed dowolną formą tego słowa segmentu, który został oznakowany jako przymiotnik:
Zapytanie to zwraca wyniki podobne do tych, które przedstawiono poniżej.Składnia wyszukiwarki jest kompozycyjna, co oznacza, że jej elementy można łączyć w celu zmaksymalizowania pokrycia i precyzji zapytania. Na przykład, po wyłączeniu opcji zachowania szyku wyrazów, zapytanie:
zwróci zdania zawierające kombinacje przysłówków i dowolnej formy czasownika 'ściemniać' w dowolnej kolejności tych terminów. W poniższej tabeli przedstawiamy przykłady zapytań o wyrazy, proste frazy i wzorce leksykalno-gramatyczne:# | Zapytanie | Odstęp | Szyk | Uwagi |
---|---|---|---|---|
1 | brać** jak leci | 2 | Tak | Terminy mogą występować w odległości do 2 tokenów od siebie, np. 'brali wszystko jak leci'. |
2 | stąpać**|chodzić**| po <tag=adj.*> <tag=subst.*> | 2 | Tak | Sekwencja stąpać + po + przym. + rzeczownik. Do 2 nieokreślonych segmentów między terminami. |
3 | koń** ząb** patrzeć**|zaglądać** | 4 | Nie | Różne warianty idiomu. |
4 | mieć** wyjebane na | 4 | Nie | Różne warianty wyrażenia idiomatycznego. |
5 | <tag=fin.*>|<tag=infin.*>|<tag=praet.*> przykład** | 2 | Tak | Wybrane formy czasownikowe (zob. tagset NKJP), po których występuje dowolna forma rzeczownika 'przykład'. | 6 | brzęk** <tag=.*gen.*> | 2 | Tak | Dowolna forma wyrazu 'brzęk', po której występuje dowolny wyraz w dopełniaczu. |
Wyszukiwarka obsługuje dwie niezależne metody sortowania wyników. Sortowanie głębokie to 'prawdziwe' sortowanie wszystkich zdań w indeksie, które pasują do zapytania po ich metadanych. Opcja 'Sortowanie konkordancji' z kolei pozwala posortować tylko zbiór wydobytych w danym żądaniu konkordancji według pasujących fragmentów zdań lub ich bezpośrednich kontekstów.
W zakładce 'Podsumowanie' tabeli wyników dostępne jest podsumowanie aktualnie wyświetlanych konkordancji (ale niekoniecznie wszystkich pasujących). Na przykład, jeżeli wykonamy następujące zapytanie i wybierzemy limit 1000 wyników:
, to na podstawie pasujących konkordancji zostanie wygenerowane nastepujące podsumowanie:
Dla każdego zapytania korpusowego obliczane są całkowite częstości dopasowań w różnych kategoriach metadanych. Aktualnie są to źródła, w których znaleziono pasujące zdania oraz przedziały czasowe, w których wystąpiły, np.:
Zalogowani użytkownicy mogą eksportować wyniki wyszukiwania w postaci arkuszy Excela.
Wykryte w konkordancjach duplikaty są wyszarzane i przekreślane, co pozwala je stosunkowo łatwo zidentyfikować.
Prosimy o kontakt w sprawie ewentualnego dostępu programistycznego do wyszukiwarki.