python-g419wikitools-1.0

PID

Zestaw skryptów w języku Python do wygenerowania słownika odmiany fraz w oparciu o linki wewnętrzne Wikipedii. Efektem analizy dumpa Wikipedii jest zestaw plików, zawierających:

A) wikilinks-difflen.txt — frazy mają różną liczbę tokenów, B) wikilinks-samelen* — frazy mają taką samą liczbę tokenów, 1. wikilinks-samelen-textbase.txt — każda para tokenów ma przynajmniej jedną wspólną formę bazową, 1.a) wikilinks-samelen-textbase-one.txt — frazy zawierają po jednym tokenie, 1.b) wikilinks-samelen-textbase-multi.txt — frazy zawierają więcej niż jeden token, 2. wikilinks-samelen-rules.txt — co najmniej jedna para tokenów nie została dopasowana przez formy bazowe, tylko przez zastosowanie reguł podmiany końcówek dla formy tekstowej. 3. wikilinks-samelen-different.txt — pozostałe frazy, które nie zostały dopasowane.

Przykład zawartości pliku wikilinks-samelen-textbase-multi.txt: Transformacja ustrojowa transformacji ustrojowej transformacji ustrojowych Konstytucja ZSRR Konstytucji ZSRR Rajd Tatrzański Rajdzie Tatrzańskim Macierz dyskowa macierzą dyskową macierzy dyskowych Osiedle Ptasie Osiedle Ptasie objaw Brudzińskiego objawy Brudzińskiego Chłopskie Stronnictwo Radykalne Chłopskiego Stronnictwa Radykalnego Melanie Klein Melanią Klein Jakub Sokołowski Jakuba Sokołowskiego Letnie Igrzyska Olimpijskie Młodzieży 2010 Letnich Igrzysk Olimpijskich Młodzieży 2010 wyrabianie ciasta wyrabiania ciasta bitwa nad rzeką Czoroch bitwie nad rzeką Czoroch Nerw błędny nerwu błędnego nerwów błędnych Pakt trzech paktu trzech Paktu Trzech Paktu trzech Komisja Episkopatu Polski ds. Ekumenizmu Komisji Episkopatu Polski ds. Ekumenizmu Flaga Albanii flagę Albanii flagi Albanii Bitwa pod Chrobrzem bitwie pod Chrobrzem Patriarcha Indii Zachodnich patriarchę Indii Zachodnich procesy fizjologiczne proces fizjologiczny energetyka jądrowa energetykę jądrową energetyce jądrowej energetyką jądrową energetyki jądrowej zdanie syntetyczne zdania syntetyczne Franciszek Ksawery Franciszek Ksawery Franciszka Ksawerego Franciszkiem Ksawerym Obwód Tirana obwodzie Tirana

Identifier
PID http://hdl.handle.net/11321/336
Metadata Access https://clarin-pl.eu/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:clarin-pl.eu:11321/336
Provenance
Creator Marcińczuk, Michał; Krautforst, Michał
Publisher Wrocław University of Science and Technology
Publication Year 2017
Rights GNU LGPL 3.0; http://www.gnu.org/licenses/lgpl.html; PUB
OpenAccess true
Contact clarin-pl(at)pwr.edu.pl
Representation
Language Polish
Resource Type toolService
Format text/plain; charset=utf-8; application/octet-stream; downloadable_files_count: 1
Discipline Linguistics