Beszélgetések Moldvából: morfológiailag annotált, online kereshető magyar nyelvjárási korpusz építése
Előadásomban beszéltnyelvi, nyelvjárási szövegek nyelvészeti szempontú feldolgozásával és a korpuszkészítés folyamatával ismertetem meg az érdeklődő közönséget, valamint bemutatom a MoMa korpuszt, az első morfológiailag annotált, online is kereshető magyar nyelvjárási korpuszt, amely a moldvai nyelvjárásokból származó szövegeket tartalmaz.
A moldvai nyelvjárásokat a magyar nyelv legveszélyeztetettebb változatai között tarthatjuk számon. A magyar nyelvészet régi adóssága a moldvai magyar nyelvjárások kutatására alkalmas, megfelelő pontossággal lejegyezett szövegkorpusz létrehozása. Tánczos Vilmos kolozsvári néprajzkutató évtizedeken át kutatta a moldvai magyarság archaikus népi imáit, és magát a világképet, gondolkodásmódot, vallásgyakorlatot, amely ezekhez a szövegekhez elválaszthatatlanul kapcsolódik. A MoMa korpuszt Tánczos Vilmos rendelkezésünkre bocsátott hangfelvételeiből kiválasztott részletekből hoztuk létre.
A MoMa korpusz anyaga többféle annotációt tartalmaz: lejegyzést a magyar egyezményes hangjelölés standardját alkalmazva; egy automatikusan egyszerűsített átiratot; egy normalizált változatot, ami közelebb hozza a nyelvjárási és beszéltnyelvi adatot a sztenderd magyar helyesíráshoz és ami az alapja további két nyelvi annotációnak: a morfológiai egyértelműsítésnek és tövesítésnek. Az anyagot lejegyzői megjegyzések, magyarázatok és lehetséges értelmezési javaslatok is gazdagítják, hogy segítsék a moldvai nyelvjárásokat kevésbé ismerő felhasználók számára a szövegek megértését.
A korpusz egy könnyen kezelhető korpuszlekérdező felületen keresztül használható, ahol a felhasználó egyszerre kereshet akár több különböző annotációs rétegben is. A korpusz emellett szervesen kapcsolódik az eredeti hangfelvételekhez is, az aktuálisan vizsgált kisebb szövegegység eredeti hangzó változata – tehát az interjú hanganyagának megfelelő részlete – is közvetlenül kinyerhető a találatból.
Eddig 18 órányi interjú anyagát dolgoztuk fel, az interjúk 32 kutatópontról származnak. Az egyes szövegek a feldolgozás különböző fázisaiban állnak, ugyanis a munka jelenleg is folyik. Terveink szerint a projekt lezárultáig a lejegyzett anyag nagy része pontos morfológiai annotációval lesz ellátva, valamint további szövegekkel is bővül a gyűjtemény. Bízunk benne, hogy a munka során szerzett tapasztalatok és a kidolgozott munkafázisok mintául szolgálnak majd további hasonló projektek számára, így akár a moldvai, akár más nyelvjárások adatait felhasználva további korpuszok is készülhetnek.
A lekérdezőfelület az alábbi url-en keresztül érhető el: https://moma.nytud.hu/, ezen a címen pedig a teljes interjúk is meghallgathatók: https://nlp.nytud.hu/csango/.
Az előadás a Moldvai magyar nyelv: Adatbázisépítés és grammatikai kutatások című Kiemelt Kutatási Témák projekt keretében készült.