Paweł Swoboda | Polish Academy of Sciences (original) (raw)
ANNA-LIZA, MARIA-MAGDALENA, JEAN-PAUL, KAZIMIERZ-WŁADYSŁAW). Poza formułami zawierającymi dwa, a ... more ANNA-LIZA, MARIA-MAGDALENA, JEAN-PAUL, KAZIMIERZ-WŁADYSŁAW). Poza formułami zawierającymi dwa, a nawet trzy lub cztery imiona (jak np. MARIA JOLANTA KRYSTYNA, ALBA VIVIANNA IWONA, THO PHUONG ANH, KIM ANNA MAGDALENA MARIA), ujawniły się także formuły, gdzie spacja pełniła funkcję delimitacyjną nie dla imion, ale też np. spójnika vel, stosowanego dla połączenia określeń równoważnych czy synonimicznych, jak w przypadku formuł (TEA VEL LEA, AGAFIA VEL AGATA, liczebników porządkowych (JÓZEF I, KAROL II, JAN III) czy określeń typu junior (JACEK JR, SŁAWOMIR JUNIOR). Marginalnie pojawiły się też imiona zestawione z hiszpańskojęzycznymi wyrażeniami przyimkowymi określającymi pochodzenie (BARBARA DE LOS ANGELES, YAREMI DE LAS MERCEDES). Wystąpiły też przypadki, gdy drugi element był zniekształcony (niekompletny), jak np. BRONISŁAWA L, ZBIGNIEW STA, ZYTA MA, JAN-). Większość wymienionych wyżej formuł imienniczych nie spełnia kryteriów bycia imieniem pierwszym rozumianym jako pojedyncze imię. Teoretycznie w celu skorygowania takich formuł moglibyśmy po prostu "obciąć" wszystkie elementy poza imieniem, które występuje jako pierwsze w szeregu, pojawia się jednak wątpliwość dotycząca np. imion w postaci transliterowanej z języków afrykańskich (np. A-NSOMPU) czy azjatyckich (np. AN-DONG). Podobnie trudno rozsądzić w każdym przypadku użycia formuły z dywizem, kiedy stosowano imię złożone, a kiedy użycie dywizu stanowiło tylko pewną konwencję lub błąd osoby, która wprowadzała dane do bazy PESEL. Ponadto użycie spacji nie zawsze wiązało się z imieniem w postaci wieloelementowego szeregu, odnotowano bowiem także wypadki, gdy doszło do przypadkowego podziału imienia (np. M IECZYSŁAW, JA NINA, ŁU UKASZ) lub też spacja wystąpiła w miejscu brakującego znaku, zwykle diakrytycznego (np. CZES AW , STANIS AW). O ile takie błędy można by wyeliminować, to jednak nie jest to już możliwe w przypadku takich formacji jak SAM_ON, gdzie nie możemy rozstrzygnąć, czy chodzi o imię Samon, Samson czy też może szereg Sam On (występujący m.in. w kambodżańskiej antroponimii). W całym pierwotnym materiale odnotowano też wiele typów, które zawierały znaki inne niż spacja, dywiz, takie jak , . ; & % itd. Część z nich miało defekty wynikające z błędnego użycia znaku, np. KAZIM9ERZ, STANÎSŁAWA, WŁADYߣAW, nadwyżkowego użycia znaku (kropki, cyfry i in.), np. JADWIGA.., OL.IWIA, TADEUSZ.1) lub przeniesienia treści z innego pola bazy danych (np. EWA.NP=DEC). Odnotowano też przypadki zastąpienia litery odpowiadającym jej punktem kodowym w standardzie Unicode, np. L<U+03AB>DIA (właśc. LΫDIA), VI<U+1EC6>T (właśc. VIỆT) itd. O ile te przypadki dałoby się skorygować, to nie możliwe było to w przypadku form takich jak NICOL<U+01FE> (co oddaje nigdzie 10 niespotykaną postać NICOLǾ), nie wiemy bowiem jaki znak powinien znaleźć się w miejscu błędnego Ǿ. Wyeliminowano również wszystkie inne pozycje, które zawierały kropkę użytą w skrócie imienia, np. w formacjach J., M., , MD., MHD., Y., gdzie na podstawie skrótu niemożliwe jest odtworzenie pełnej postaci pierwszego imienia. 3 Konieczne było też wyeliminowanie postaci zawierających znaki o niejednoznacznej roli. O ile w formule MATTHA%US ciąg A% odpowiada zapewne literze Ä, to nie możemy ze stuprocentową pewnością stwierdzić, że w przykładach: KA%TE, CA%CILIE, BE%RBEL, ZOE% itd. znak % zawsze odpowiadał umlautowi. To samo dotyczy apostrofu (ʹ). W formule typu O'NEIL znak jest ten użyty prawidłowo, jednak nie można jednoznacznie zinterpretować jego roli w innych imionach, gdyż raz może odpowiadać ukośnej kresce (akutowi) nad literą nastepującą, np. NICOL'E (popr. NICOLÉ), kiedy indziej pełnić funkcję miękkości, jak w transliterowanych imionach rosyjskich (np. OL'GA) lub mieć inną, trudną do zinterpretowania rolę (ANN'ESSY, MARCO', A'ISHAT, JAKUB'). Inną problematyczną kwestią było współwystępowanie w bazie błędnych wariantów graficznych tego samego imienia powstałych podczas wprowadzania danych do bazy PESEL. Przykładem może być niemieckie imię Günter. Występujący w nim grafem ü został zapisany na kilka sposobów: GÜNTER, GŰNTER, GŰENTER, G;UNTER, GU''NTER, GU'NTER. Każda z tych postaci została zapisana w innej, błędnej manierze graficznej (poza GÜNTER), co powoduje, że komputer rozpoznaje je jako odrębne formy. Teoretycznie można by sprowadzić je do formy poprawnej GÜNTER, jednak prześledzenie całej bazy pod kątem występowania takich potencjalnych błędnych wariantów graficznych innych imion jest zadaniem trudnym do zrealizowania dla jednej osoby, jeśli w ogóle jest to możliwe (zwłaszcza, że w materiale występuje wiele imion genetycznie niepolskich, a nawet pozaeuropejskich). Mając świadomość, że wyeliminowanie wszystkich wątpliwych form jest bardzo trudne, uznano za wyjście kompromisowe maksymalnie ograniczyć ich liczbę przez eliminację stosunkowo nieznacznej liczby okazów zawierających błędne znaki diakrytyczne oraz znaki nieliterowe. Doświadczenie innych badaczy wskazuje też, że eliminacja niewielkiej części materiału z tak dużej bazy danych, jaką stanowi baza PESEL, jest wyjściem rozsądniejszym 3 Skróty MHD., MD. mogą oddawać wiele postaci: Mahmud, Muhammad, Mohammed itd.